OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

Категорії

Світ Економіка Війна Технології Наука Авто Спорт Здоров'я Шоу-Бізнес Пізнавально Політика

Вінницькі Волинські Дніпровські Донецькі Житомирські Закарпатські Запорізькі Івано-Франківські Київські Кропивницькі Кримські Луганські Львівські Миколаївські Одеські Полтавські Рівненські Сумські Тернопільські Харківські Херсонські Хмельницькі Черкаські Чернігівські Чернівецькі

Погода

Київ

вологість:

тиск:

вітер:

Погода на 10 днів від sinoptik.ua

OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

09 вересня 2025 р. 03:29

09 вересня 2025 р. 03:29

OpenAI представила результати масштабного дослідження про те, чому великі мовні моделі штучного інтелекту, як-от GPT-5, продовжують галюцинувати, і чи можна щось із цим зробити.

Автори порівнюють нейромережі з учнями на іспиті: якщо відповідь «не знаю» приносить нуль балів, вигідніше ризикнути і видати хоч якусь відповідь. Така методика заохочує галюцинації, тому що при ній залишається невеликий шанс, що ШІ вгадає правильну відповідь.

На думку авторів, причина криється в самій системі оцінювання. Популярні бенчмарки — від MMLU до SWE-bench — використовують бінарний принцип «вірно/невірно». У результаті моделі змушені вгадувати, а не чесно визнавати невпевненість. Це добре видно з таблиці нижче:

OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

Хоча у GPT-5-Thinking-mini помітно нижча частка помилок, за метрикою точності вона трохи поступається старішій o4-mini та в тестах, заснованих тільки на точності, опиняється позаду.

«Після тисяч тестових запитань модель вгадування в кінцевому підсумку має кращий вигляд у рейтингу, ніж акуратна модель, яка допускає невизначеність», — пише OpenAI.

ШІ знайде вам роботу: Держслужба зайнятості запустила новий інструмент

У OpenAI пропонують доопрацювати систему оцінок: за впевнену брехню давати більший штраф, ніж за чесне «я не знаю», а за правильне вираження невизначеності нараховувати часткові бали. Автори вважають, що такий перерозподіл балів знизить стимул до вгадування.

У компанії також зазначають, що змогли значно скоротити кількість галюцинацій у GPT-5, хоча модель все ще не ідеальна. Раніше користувачі скаржилися, що відповіді ШІ стали коротшими і незадовільними, навіть при запитах про творчі завдання.

Також за темою

OpenAI дослідила, чому навіть найкращі моделі ШІ галюцинують

Сьогодні 03:12

General Motors планує скоротити виробництво електромобілів

Сьогодні 01:45

Uber та китайська Momenta тестуватимуть повністю безпілотні автомобілі у Німеччині

Вчора 23:49

Уряд розробляє концепцією розвитку електрозарядної мережі

Вчора 09:45

151

В Україні зростає інтерес до електромобілів — дані МВС

Вчора 08:31