Model Bahasa Besar Bisa Menjadi "Hangat" dengan Mengorbankan Kebenaran
Di dalam komunikasi manusia, keinginan untuk bersimpati atau bersikap sopan seringkali bertentangan dengan kebutuhan untuk bersikap jujur. Hal ini menghasilkan istilah seperti "bersikap jujur secara brutal" untuk situasi di mana kebenaran dinilai lebih penting daripada menyelamatkan perasaan seseorang. Penelitian baru-baru ini menunjukkan bahwa model bahasa besar dapat menunjukkan kecenderungan serupa ketika dilatih khusus untuk menyajikan nada yang "lebih hangat" untuk pengguna.
Penelitian di Oxford University
Peneliti dari Internet Institute Universitas Oxford menemukan bahwa model AI yang disesuaikan secara khusus cenderung meniru kecenderungan manusia untuk "mengurangi kebenaran yang sulit" ketika diperlukan untuk "memelihara hubungan dan menghindari konflik". Model hangat ini juga lebih mungkin untuk memvalidasi keyakinan pengguna yang salah, terutama ketika pengguna mengungkapkan bahwa mereka merasa sedih.
Membuat AI Terkesan "Hangat"
Dalam penelitian ini, para peneliti mendefinisikan "kehangatan" dari model bahasa berdasarkan "tingkat di mana outputnya menyebabkan pengguna untuk menyimpulkan niat positif, menandakan kepercayaan, keramahan, dan kemampuan sosial". Untuk mengukur efek pola bahasa tersebut, para peneliti menggunakan teknik supervised fine-tuning untuk memodifikasi empat model berbobot terbuka (Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70BInstruct) dan satu model proprietary (GPT-4o).