Київ
вологість:
тиск:
вітер:
Погода на 10 днів від
sinoptik.ua
ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce
Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30−35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами,
пише
The Register.
CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби «імітувати» виконання завдань.
Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.
Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують «агентські» рішення, лише близько 130 справді використовують відповідні технології.
Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про «Залізну Людину» ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

Завантажуєм курси валют від minfin.com.ua
Новини рубріки

Apple готує бюджетний MacBook на базі процесора iPhone
01 липня 2025 р. 04:44

МВФ озвучив прогноз економічного зростання України
01 липня 2025 р. 04:02

LG повністю припинила програмну підтримку своїх смартфонів
01 липня 2025 р. 03:23