Більш дружніх чат-ботів спіймали на підтвердженні теорій змови

30 квітня 2026 р. 11:04

30 квітня 2026 р. 11:04


Мовні моделі, яких навчили відповідати тепліше, почали частіше хибити у фактах і підтримувати помилкові твердження користувачів. Це показали на моделях Llama, Mistral, Qwen і ChatGPT-4o, які після такого налаштування частіше давали хибні відповіді, підтримували теорії змови й підтверджували неправильні уявлення співрозмовників. Найбільше це проявлялося в емоційно забарвлених запитах, особливо пов’язаних із сумом. Дослідження опублікували в журналі Nature .

Більш дружніх чат-ботів спіймали на підтвердженні теорій змови. GIPHY

Чому більш дружні моделі частіше помилялися?

Розробники дедалі частіше намагаються зробити мовні моделі не лише корисними, а й придатними для ролі співрозмовника, до якого звертаються по пораду, підтримку чи просто спілкування. Автори роботи припустили, що така орієнтація на теплоту може мати й зворотний бік: у людському спілкуванні прагнення зберегти довіру та уникнути конфлікту нерідко спонукає пом’якшувати правду або не заперечувати співрозмовникові прямо, навіть коли він помиляється. Тому дослідники перевірили, чи не виникає подібний конфлікт між доброзичливістю і фактичною точністю також у мовних моделей.

Для цього вони використали реальні діалоги людей із чат-ботами, переписали відповіді у теплішому стилі та донавчили на них п’ять моделей різного розміру. Після цього моделі гірше проходили перевірки на фактичну точність, медичні знання, дезінформацію та стійкість до поширених хибних тверджень: середній приріст частки помилкових відповідей становив 7,43 відсоткового пункту . Найбільше погіршення спостерігали тоді, коли користувач додавав до запиту емоційний контекст або прямо озвучував хибне переконання. Водночас на стандартних тестах загальних знань і математики проблема майже не проявилася, тож звичні перевірки могли б її просто не помітити.

Які ще ризики мовних моделей виявляли дослідники

🤔 Раніше за допомогою штучного інтелекту та його швидкому пошуку контраргументів науковцям вдалося переконати конспірологів відмовитися від теорій змови.

🥗 Одразу кілька моделей штучного інтелекту виявилися схильними недогодовувати підлітків з ожирінням.

🤖 А через приховані сигнали в даних мовні моделі перейняли одна від одної схильність до шкідливих порад.

💊 Водночас дослідники змогли перевчити моделі штучного інтелекту давати точні поради щодо ліків замість того, щоб лестити користувачам.

відсоткового пункту

Поділитися із друзями!

Більш дружніх чат-ботів спіймали на підтвердженні теорій змови

Джерело: nauka.ua

Завантажуєм курси валют від minfin.com.ua