GPT-5, Grok і Gemini не впоралися з реальними завданнями фрилансерів

Категорії

Світ Економіка Війна Технології Наука Авто Спорт Здоров'я Шоу-Бізнес Пізнавально Політика

Вінницькі Волинські Дніпровські Донецькі Житомирські Закарпатські Запорізькі Івано-Франківські Київські Кропивницькі Кримські Луганські Львівські Миколаївські Одеські Полтавські Рівненські Сумські Тернопільські Харківські Херсонські Хмельницькі Черкаські Чернігівські Чернівецькі

Погода

Київ

вологість:

тиск:

вітер:

Погода на 10 днів від sinoptik.ua

GPT-5, Grok і Gemini не впоралися з реальними завданнями фрилансерів — дослідження

21 січня 2026 р. 04:25

21 січня 2026 р. 04:25

Щоб перевірити, чи можуть сучасні системи штучного інтелекту виконувати проєкти на рівні професійних фрилансерів, група дослідників протестувала низку провідних ШІ-моделей, зокрема Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent і Gemini 2.5 Pro.

Про це пише ZDNET.

Для тестування було використано реальні робочі завдання, які раніше успішно виконували фрилансери у сферах розробки ігор, продуктового дизайну, архітектури, аналізу даних та відеоанімації.

Які завдання виконували ШІ-моделі

ШІ-системам запропонували виконати шість проєктів різної складності, зокрема:

створити інтерактивну панель інструментів для дослідження даних зі Звіту про щастя у світі;
розробити версію гри «Кавун» на тему пивоваріння, де гравці об’єднують падаючі предмети, щоб досягти предмета найвищого рівня;
зробити 3D-анімацію для демонстрації характеристик і дизайну нових навушників і зарядного кейса;
зробити 2D-анімоване відео, що рекламує пропозиції компанії, що надає безплатні послуги;
розробити архітектурні плани та 3D-модель контейнерного будинку на основі наявного PDF-проєкту;
відформатувати документ, використовуючи надані функції та рівняння, для конференції IEEE.

Перераховані вище завдання охоплювали різні рівні складності, обійшлися у $10 000 й зайняли в реальних виконавців понад 100 годин часу.

Результати оцінювання

Для порівняння можливостей ШІ-автоматизації та реальної праці фрилансерів, дослідники розробили систему оцінювання Remote Labor Index (RLI) .

За результатами тестування навіть найкращі моделі продемонстрували дуже низький рівень автоматизації.

«Найкраща модель досягла рівня автоматизації лише у 2,5%. Це доводить, що сучасні системи штучного інтелекту неспроможні виконати переважну більшість проєктів на тому рівні якості, який прийнятний для робіт на замовлення», — зазначають автори дослідження.

Чи здатний штучний інтелект замінити фрілансерів

Manus показав найкращі результати з показником продуктивності 2,5%. Grok 4 та Sonnet 4.5 поділили показники на 2,1%, GPT-5 був наступним з 1,7%, а агент ChatGPT — на 1,3%. Gemini посів останнє місце з 0,8%.

Один із дослідників, Ден Хендрікс, визнав: хоча сучасні ШІ й розумні, вони досі не надто корисні, враховуючи загальний показник автоматизації менш ніж у 3%.

Чому ШІ не впорався із завданнями

Пояснюючи причини такого провалу, Хендрікс зазначив, що багато можливостей ШІ залишаються дефіцитними. ШІ не здатні вчитися безпосередньо в процесі роботи, оскільки не мають довготривалої пам’яті. Крім того, зорові навички ШІ обмежені, хоча саме вони були необхідні для виконання багатьох завдань.

Тестування спеціально включало завдання, що вимагали досить високого рівня кваліфікації. Імовірно, з іншими видами робіт і проєктів ШІ впорався б значно легше.

Понад 60% фрилансерів заробляють більше завдяки ШІ — дослідження

«Хоча абсолютні показники автоматизації наразі низькі, наш аналіз свідчить про те, що моделі стабільно вдосконалюються, а прогрес у виконанні цих складних завдань є цілком вимірним, — зазначають дослідники. — Це створює спільну базу для відстеження траєкторії автоматизації за допомогою ШІ, що дасть змогу зацікавленим сторонам завчасно адаптуватися до її наслідків».

Також за темою

GPT-5, Grok і Gemini не впоралися з реальними завданнями фрилансерів — дослідження

Сьогодні 04:06

Яке авто встановило рекорд витривалості серед серійних електрокарів

Сьогодні 03:25

Німеччина даватиме субсидії на електрокари для населення

Сьогодні 02:42

Tesla офіційно розпочала продажі у Словаччині

Сьогодні 01:28

xAI формує «елітний підрозділ» рекрутерів для пошуку найкращих ШІ-талантів

Вчора 22:37

Безос прогнозує кінець епохи традиційних ПК