вологість:
тиск:
вітер:
ChatGPT, Claude та Gemini грають в Pokémon: чому штучний інтелект тренують на іграх
У Кремнієвій долині з’явився новий неформальний стандарт перевірки можливостей передових моделей штучного інтелекту. Ним стала піксельна гра Pokémon 1990-х років із консолі Nintendo Game Boy. Лабораторії використовують її для оцінки довготривалого мислення та ухвалення рішень ШІ, повідомляє The Wall Street Journal.
Розробники великих мовних моделей у цій грі відстежують їх прогрес і оцінюють здатність до складних багатокрокових дій. Гравець Pokémon має проходити лабіринти, ловити покемонів і перемагати “ gym masters” ( “майстрів спортзалу”), щоб поступово рухатися до фінальної мети.
“Це надає нам чудовий спосіб просто побачити, як працює модель, і оцінити її кількісно”, — зазначив Девід Херші, керівник прикладного штучного інтелекту в компанії Anthropic. Він також є ініціатором трансляції “Claude грає в Pokémon” на платформі Twitch, запущеної минулого лютого.
Проєкт Anthropic надихнув незалежних розробників створити стріми “ChatGPT грає в Pokémon” і “Gemini грає в Pokémon”, які згодом отримали підтримку лабораторій OpenAI та Google. Сукупно ці трансляції зібрали сотні тисяч коментарів, де глядачі спостерігали за ходом міркувань моделей у реальному часі.
Використання ігор для оцінки ШІ має довгу історію. Раніше для цього застосовували шахи, покер, гру Go, а також відеоігри на кшталт Minecraft, а компанія Kaggle запустила окрему платформу Game Arena для таких змагань.
На відміну від класичних тестів, Pokémon дозволяє відстежувати логіку прийняття рішень протягом тривалого часу, зазначає доцент Університету Карнегі-Меллона Грем Нойбіг. За його словами, це ближче до реальних завдань, які користувачі ставлять перед сучасними ШІ-системами.
Гра вимагає стратегічного вибору між тренуванням покемонів, пошуком нових союзників і розв’язанням просторових головоломок. Саме лабіринти й задачі на орієнтацію часто стають найбільшим викликом для моделей.
“Те, що зробило Pokémon цікавою, — це те, що вона набагато менш обмежена, ніж Pong чи інші ігри. Досить складна задача, яку може вирішити комп’ютерна програма”, — наголосив Херші.
Нові версії Claude поступово демонструють кращі результати, хоча жодна з них поки не завершила гру. Наразі Claude Opus 4.5 проходить Pokémon у прямому ефірі на Twitch.
За словами Херші, цей експеримент допоміг створити нові інструменти для ШІ, зокрема, систему пам’яті для збереження важливої ігрової інформації. Набуті під час гри напрацювання він використовує й у роботі з клієнтами Anthropic.
ChatGPT і Gemini вже змогли пройти оригінальну Pokémon, хоча розробники визнають роль додаткових механізмів підтримки. Зараз моделі OpenAI та Google тестують себе у продовженнях гри.
“Це ідеальна гра для ШІ зараз. Я намагався придумати інші ігри, але не знайшов такого гарного прикладу, як Pokémon ”, — заявив розробник стриму “ChatGPT грає в Pokémon” Джонатан Веррон.
Раніше компанія Rosebud протестувала 22 моделі ШІ, щ об перевірити, як вони реагують на запити користувачів із суїцидальними думками. Дослідження виявило, що чат-бот Grok від Ілона Маска є найнебезпечнішим для людей у кризових станах . Найвищий рівень емпатії та безпеки продемонструвала модель Gemini від Google, проте жодна з 22 протестованих нейромереж не змогла уникнути критичних помилок.
Джерело: zn.ua (Політика)
Новини рубріки
Скелелаз з США піднявся на 500-метровий хмарочос без страховки
25 січня 2026 р. 13:03
Користувачі п'яти країн подали позов проти Meta через скандал з WhatsApp
25 січня 2026 р. 13:03
Литва – Україна: де дивитися поєдинок Євро-2026 з футзалу
25 січня 2026 р. 13:03