Київ
вологість:
тиск:
вітер:
Погода на 10 днів від
sinoptik.ua
OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують
OpenAI представила результати масштабного дослідження про те, чому великі мовні моделі штучного інтелекту, як-от GPT-5, продовжують галюцинувати, і чи можна щось із цим зробити.
Автори
порівнюють
нейромережі з учнями на іспиті: якщо відповідь «не знаю» приносить нуль балів, вигідніше ризикнути і видати хоч якусь відповідь. Така методика заохочує галюцинації, тому що при ній залишається невеликий шанс, що ШІ вгадає правильну відповідь.
На думку авторів, причина криється в самій системі оцінювання. Популярні бенчмарки — від MMLU до SWE-bench — використовують бінарний принцип «вірно/невірно». У результаті моделі змушені вгадувати, а не чесно визнавати невпевненість. Це добре видно з таблиці нижче:
Хоча у GPT-5-Thinking-mini помітно нижча частка помилок, за метрикою точності вона трохи поступається старішій o4-mini та в тестах, заснованих тільки на точності, опиняється позаду.
«Після тисяч тестових запитань модель вгадування в кінцевому підсумку має кращий вигляд у рейтингу, ніж акуратна модель, яка допускає невизначеність», — пише OpenAI.
У OpenAI пропонують доопрацювати систему оцінок: за впевнену брехню давати більший штраф, ніж за чесне «я не знаю», а за правильне вираження невизначеності нараховувати часткові бали. Автори вважають, що такий перерозподіл балів знизить стимул до вгадування.
У компанії також зазначають, що змогли значно скоротити кількість галюцинацій у GPT-5, хоча модель все ще не ідеальна. Раніше користувачі скаржилися, що відповіді ШІ стали коротшими і незадовільними, навіть при запитах про творчі завдання.
Також за темою
OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують
General Motors планує скоротити виробництво електромобілів
Uber та китайська Momenta тестуватимуть повністю безпілотні автомобілі у Німеччині
Уряд розробляє концепцією розвитку електрозарядної мережі
В Україні зростає інтерес до електромобілів — дані МВС
ТОП-5 сімейних авто, які рідко ламаються та не спустошують гаманець
General Motors планує скоротити виробництво електромобілів
Uber та китайська Momenta тестуватимуть повністю безпілотні автомобілі у Німеччині
Уряд розробляє концепцією розвитку електрозарядної мережі
В Україні зростає інтерес до електромобілів — дані МВС
ТОП-5 сімейних авто, які рідко ламаються та не спустошують гаманець

Завантажуєм курси валют від minfin.com.ua
Новини рубріки

Ціни на паркомісця в Україні – скільки коштують місця для авто у різних містах?
09 вересня 2025 р. 11:18

«Укроборонпром» вдруге увійшов до рейтингу 50 найкращих оборонних компаній світу
09 вересня 2025 р. 11:13

У ЄС планують санкції проти "Лукойла" та російської нафти
09 вересня 2025 р. 11:13