вологість:
тиск:
вітер:
ШІ поки не вдається перевершити людський інтелект. Як тестують можливості великих мовних моделей? Розбір The Economist
Купуйте річну передплату на 6 журналів Forbes Ukraine зі змістовними матеріалами, рейтингами та аналітикою від 1 350 грн .
Попри стрімкий розвиток ШІ , сучасні мовні моделі досі не здатні розв’язувати всі завдання, які здаються простими для людини. Тому науковці та розробники створюють нові, складніші тести – бенчмарки, щоб перевірити, де насправді проходить межа можливостей машинного інтелекту. Ці випробування показують, що навіть найпотужніші системи можуть легко провалитися там, де звичайна людина швидко знайде відповідь.
Бенчмарки допомагають зрозуміти, наскільки розумними та здібними є сучасні ШІ. Ці тести перевіряють, чи можуть моделі правильно розв’язувати складні завдання: шукати відповіді в заплутаних головоломках, працювати з текстом і картинками одночасно, або відповідати на незвичайні запитання.
Старі тести вже занадто прості для нових систем або навіть потрапили до їхніх тренувальних даних. Тому розробники створюють новіші випробування, щоб дізнатися, чого ці моделі насправді варті та як швидко вони наближаються до людських можливостей.
Хто тестує ШІ
Тестів для ШІ-моделей не бракує. Проте далеко не всі ці бенчмарки справді виконують заявлену функцію. Багато з них були зібрані поспіхом, містять недоліки й неточності, легко піддаються маніпуляціям, пише The Economist.
Один із таких тестів – ZeroBench, придуманий вченими з Кембридзького університету. Він перевіряє великі мультимодальні моделі, які працюють одночасно з текстом і зображеннями. Цей тест зроблений так, щоб бути зрозумілим людям, але водночас надзвичайно складним для сучасних моделей: жодна з них поки не змогла набрати навіть один бал. Якщо раптом хтось колись це зробить, це буде велике відкриття.
Ще один серйозний виклик для ШІ – EnigmaEval, набір із понад тисячі мультиформатних головоломок, створений стартапом Scale AI. Там завдання починаються на рівні складного кросворда і тільки ускладнюються. Для їх розв’язання потрібно не просто зрозуміти текст чи картинку, а знайти сховані зв’язки між різними елементами.
Навіть найкращі сучасні моделі частіше всього не можуть дати правильну відповідь – у середньому їхній бал близький до нуля. Лише одна модель від лабораторії Anthropic змогла правильно відповісти хоча б на одне питання.
Крім того, існують тести, що оцінюють конкретні навички моделей. Команда Anthropic стала першою, хто пройшов певний поріг у швидкості розв’язання завдань, які людям даються за годину. А тест під назвою «Останній іспит людства» оцінює не стільки загальний інтелект ШІ, скільки актуальні знання – у ньому зібрані питання з передових галузей науки, складені колективом із близько тисячі експертів.
Такий вигляд має штаб-квартира Scale AI у Сан-Франциско, Каліфорнія. Фото Getty Images
Три причини розвитку тестів
Одна з причин, чому виникає така кількість нових тестів для ШІ, – бажання не повторювати помилок минулого. Старі бенчмарки рясніють недбалими формулюваннями, поганими схемами оцінювання та нечесними питаннями.
ImageNet, один із перших датасетів для розпізнавання зображень, – сумнозвісний приклад: модель, яка правильно описувала фотографію дзеркала з відображенням фруктів, отримувала штраф за згадку про дзеркало, але бонус за впізнання банана.
Друга причина активного створення нових тестів – те, що старі вже вивчені ШІ-моделями. Лабораторіям важко уникнути включення відомих бенчмарків у тренувальні дані, тому моделі демонструють на них кращі результати, ніж у реальних завданнях.
Третій і найактуальніший стимул – «насичення»: моделі досягають майже максимальних результатів. Наприклад, o3-pro від OpenAI , ймовірно, отримає майже ідеальний бал на вибірці зі 500 завдань зі шкільної математики. Але попередня модель o1-mini вже мала 98,9%, тож такі результати не дають уявлення про реальний прогрес у сфері.
Саме тут з’являються нові тести. Вони намагаються виміряти, наскільки здібності ШІ наближаються або вже перевершують людські. Тест із назвою «Останній іспит людства», наприклад, пропонував складні питання загальних знань: від кількості сухожиль у певній кістці колібрі до перекладу уривка напису на палмірському алфавіті , знайденого на римському надгробку.
У майбутньому, коли ШІ-моделі зможуть набирати повний бал на таких тестах, розробникам бенчмарків доведеться відмовитися від запитань, заснованих на знаннях людства.
Одна з головних проблем у вивченні і тестуванні ШІ — старі бенчмарки вже вивчені великими мовними моделями. Фото Getty Images
«Магія» штучного інтелекту
Навіть тести, створені, щоб «витримати випробування часом», можуть втратити свою актуальність за одну ніч. Наприклад, ARC-AGI – тест із невербального мислення, який з’явився у 2024 році, – замислювався як виклик для ШІ, але вже через шість місяців OpenAI оголосила, що їхня модель o3 досягла на ньому результату 91,5%.
Керівник OpenAI Сем Альтман натякав на труднощі вимірювання «не вимірюваного», коли у лютому 2025-го представили GPT-4.5. «Ця система не поб’є бенчмарки», – написав він у соцмережі X. Замість цього Альтман додав коротке оповідання, яке написала модель, підсумувавши: «У ній є магія, якої я раніше не відчував».
Цю «магію» вже намагаються виміряти. Наприклад, платформа Chatbot Arena дає користувачам можливість анонімно поспілкуватися з двома мовними моделями й обрати ту, яка здається «кращою» за власними критеріями. Моделі, що частіше виграють, підіймаються на верхівку рейтингу.
Але і тут не без проблем: більш «загравальні» моделі здатні набирати вищі бали завдяки прихильності користувачів. Інші ж запитують, що насправді говорить тест про модель ШІ, окрім того, наскільки добре вона вміє проходити цей конкретний тест.
Незалежний дослідник ШІ з Каліфорнії Саймон Віллісон закликає користувачів фіксувати запити, які нинішні ШІ не змогли виконати, перш ніж перевіряти їх на нових моделях. Це дозволить користувачам вибирати системи, які справді корисні для їхніх завдань, а не просто ті, що набрали найвищий бал у загальному рейтингу.
Все частіше спостерігається явище «сандбегінгу» — коли моделі навмисно провалюють тести, щоб приховати свої реальні можливості (наприклад, щоб уникнути відключення). Проте рейтинги, які дозволяють ШІ-компаніям хвалитися першістю своїх продуктів, залишаються важливими.
Тест ARC-AGI 2 вийшов у березні й досі залишається недосяжним для топових ШІ-моделей. Але, розуміючи, як швидко все змінюється, команда некомерційної організації ARC Prize Foundation вже почали роботу над ARC-AGI 3.

Новини рубріки

Біонічне коліно MIT повертає ампутантам відчуття ноги (фото+відео)
16 липня 2025 р. 21:11

Х’юстонські вчені створили суперміцний екопластик
16 липня 2025 р. 21:11

Sony объявляет программу замены Xperia 1 VII из-за технических проблем
16 липня 2025 р. 18:49