Видатні уми в галузі ШІ – Девід Сілвер, творець AlphaGo, та Річард Саттон, «батько» навчання з підкріпленням – опублікували роботу, яка фактично підбиває риску під поточним етапом розвитку штучного інтелекту.
Суть проста: архітектура, на якій побудовано ChatGPT та інші сучасні мовні моделі, наближається до межі своїх можливостей.
Кінець епохи “людських даних”.
Системи ШІ на кшталт Gemini та Claude досягли вражаючих результатів, навчаючись на масштабних масивах інформації, створеної людьми. Вони майстерно імітують людську мову й поведінку. Проте саме в цьому і полягає їхній головний недолік.
Інтернет майже вичерпано як джерело якісних навчальних даних. Усе, що можна було використати, вже використано. Подальший поступ, заснований виключно на завантаженні нових текстів, сповільнюється.
Імітація це не винахід. Моделі, навчені на вже існуючих знаннях, не здатні вийти за їх межі. Вони не створять революційних ідей чи технологій, просто тому, що таких ідей немає у їхньому навчальному матеріалі.
Вперед до епохи “досвіду”.
Для наступного кроку у напрямку надлюдського інтелекту потрібен інший тип даних – не людський контент, а власний досвід ШІ, накопичений у процесі взаємодії з цифровими та реальними середовищами. Це повертає на передній план навчання з підкріпленням, але вже у новому, масштабнішому вигляді.
Яскравий приклад – AlphaProof від DeepMind, який нещодавно здобув «срібло» на Міжнародній математичній олімпіаді. Спершу він вивчив 100 тисяч людських доказів, а потім самостійно згенерував ще 100 мільйонів, експериментуючи з логічними системами. Тобто навчався вже не на людях, а на власному досвіді.
Три основи нової ери ШІ.
Сілвер і Саттон виокремлюють ключові риси майбутніх систем ШІ:
Потоки досвіду. Streams. Замість розрізнених сесій «питання-відповідь» агенти навчатимуться безперервно, протягом тривалого часу. Уявіть ШІ-наставника з охорони здоров’я, який місяцями аналізує дані з ваших гаджетів і адаптує поради відповідно до змін у вашому організмі. Наприклад, із Whoop вже так все і є.
Заземлені дії та винагороди. Grounded Actions&Rewards. ШІ почне взаємодіяти з навколишнім світом безпосередньо: керувати інтерфейсами, використовувати API, управляти роботами. І його успіх вимірюватиметься об’єктивними метриками (grounded rewards), а не людськими оцінками (prejudgement). Наприклад, корисність наукового ШІ визначатиметься зменшенням рівня CO₂, а не позитивною реакцією експертів.
Нелюдське мислення. Non-human Reasoning. Нові системи зможуть розвивати власні логічні підходи, не копіюючи звичні людські міркування. Як AlphaProof, що знаходив математичні докази, недоступні людському розумінню.
Це, мабуть, найреволюційніший аспект майбутньої епохи — відмова від людської логіки як єдиного еталона.
Що це змінює для всіх нас?
Ми вступаємо у фазу ШІ, який не просто «знає», а навчається. Замість гонитви за новими текстовими датасетами починається гонитва за створенням складних і багатих цифрових світів, у яких агенти можуть здобувати досвід.
Фокус зміщується від дата-сайентістів до проєктувальників середовищ та мотиваційних систем.
Нові ШІ будуть не просто чат-ботами, вони стануть повноцінними дослідниками, інженерами та науковими помічниками. Але разом з їхньою автономністю та непередбачуваністю з’являються і нові виклики: як управляти ШІ, який вчиться сам, діє без інструкцій і мислить по-своєму?