OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

09 вересня 2025 р. 03:29

09 вересня 2025 р. 03:29


OpenAI представила результати масштабного дослідження про те, чому великі мовні моделі штучного інтелекту, як-от GPT-5, продовжують галюцинувати, і чи можна щось із цим зробити.

Автори порівнюють нейромережі з учнями на іспиті: якщо відповідь «не знаю» приносить нуль балів, вигідніше ризикнути і видати хоч якусь відповідь. Така методика заохочує галюцинації, тому що при ній залишається невеликий шанс, що ШІ вгадає правильну відповідь.

На думку авторів, причина криється в самій системі оцінювання. Популярні бенчмарки — від MMLU до SWE-bench — використовують бінарний принцип «вірно/невірно». У результаті моделі змушені вгадувати, а не чесно визнавати невпевненість. Це добре видно з таблиці нижче:

OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

Хоча у GPT-5-Thinking-mini помітно нижча частка помилок, за метрикою точності вона трохи поступається старішій o4-mini та в тестах, заснованих тільки на точності, опиняється позаду.

«Після тисяч тестових запитань модель вгадування в кінцевому підсумку має кращий вигляд у рейтингу, ніж акуратна модель, яка допускає невизначеність», — пише OpenAI.

У OpenAI пропонують доопрацювати систему оцінок: за впевнену брехню давати більший штраф, ніж за чесне «я не знаю», а за правильне вираження невизначеності нараховувати часткові бали. Автори вважають, що такий перерозподіл балів знизить стимул до вгадування.

У компанії також зазначають, що змогли значно скоротити кількість галюцинацій у GPT-5, хоча модель все ще не ідеальна. Раніше користувачі скаржилися, що відповіді ШІ стали коротшими і незадовільними, навіть при запитах про творчі завдання.

Також за темою

General Motors планує скоротити виробництво електромобілів

Uber та китайська Momenta тестуватимуть повністю безпілотні автомобілі у Німеччині

Уряд розробляє концепцією розвитку електрозарядної мережі

В Україні зростає інтерес до електромобілів — дані МВС

ТОП-5 сімейних авто, які рідко ламаються та не спустошують гаманець

OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

Джерело: finance.ua

Завантажуєм курси валют від minfin.com.ua