Кожна десята відповідь ШІ-оглядів Google є помилковою — дослідження

09 квітня 2026 р. 00:08

09 квітня 2026 р. 00:08


Експеримент із функцією AI Overviews в пошуку Google показав, що штучний інтелект видає точні відповіді в 90% випадків. Однак ключовий нюанс полягає в тому, що принаймні 1 з 10 відповідей неправдива. З огляду на кількість запитів, можна говорити про мільйони «брехливих відповідей» на годину.

Про це йдеться в дослідженні The ​​New York Times і стартапу Oumi.

Результати тестування

AI Overviews — це функція пошукової системи Google, яка використовує штучний інтелект (Gemini) для створення автоматичних та стислих відповідей на запит користувача. Вперше її запустили у 2024 році, а торік з травня вона отримала широке розповсюдження, зокрема й в Україні.

З моменту впровадження Google AI Overviews викликали масу суперечок і скарг, але з часом і запуском нових моделей Gemini стали кращими. В новому експерименті The ​​New York Times спробувало оцінити точність відповідей ШІ на цей час: виявилося, що вони правильні у 90% випадків, тобто принаймні 1 з 10 відповідей помилкова.

Експеримент проводився спільно з ШІ-стартапом Oumi, а для перевірки відповідей використовували SimpleQA — стандартний тест для моделей із 4 тисяч запитань, створений OpenAI у 2024 році. Перші тести Oumi провела торік, коли актуальною була модель Gemini 2.5. — тоді точність AI Overviews становила 85%. Після оновлення до Gemini 3 вона підвищилася до 91%. Водночас якщо екстраполювати рівень помилок на всі пошукові запити, можна говорити про мільйони оманливих відповідей на годину і сотні тисяч щохвилини.

Приклади помилок

У звіті наводять приклади помилок. Зокрема, в запиті про те, коли колишній будинок Боба Марлі став музеєм, Google AI Overviews навів три джерела: два взагалі без дат, а третє — з Вікіпедії — із помилкою. Інший запит в бенчмарку пропонував вказати дату, коли віолончеліст Йо-Йо Ма потрапив до Зали слави класичної музики — ШІ сказав, що такої зали не існує, хоча сам послався на офіційний сайт організації.

Реакція Google

Очікувано, в Google розкритикували методологію. Речник Нед Адріанс заявив, що SimpleQA може містити неточності. Натомість компанія використовує власний текст SimpleQA Verified, що базується на меншій, але ретельніше перевіреній вибірці.

«Це дослідження має серйозні прогалини», — сказав Адріанс NYT. — Воно не відображає те, що люди насправді шукають у Google".

Оцінювання ШІ залишається складною задачею. Кожна з компаній має власний спосіб демонстрації можливостей, хоча перевірка ускладнюється й тим, що моделі можуть давати різні відповіді на одне й те саме питання.

Ще одна особливість полягає в тому, що AI Overviews не є єдиною моделлю. Google у коментарі для Ars Technica повідомила, що система обирає «найбільш відповідну» для кожного запиту. Найточніші відповіді могла б забезпечити Gemini 3.1 Pro, але вона повільна і дорога, тож частіше використовуються моделі Gemini Flash.

Також за темою

«Волга» по-китайськи: росіяни презентували клони моделей Geely

В Україні протестують пілот з переробки будівельного сміття для доріг — деталі

Молоді засновники ШІ-стартапів кидають навчання і живуть за рахунок інвесторів — WSJ

Xiaomi переманює кадри з Tesla — китайська компанія готується вийти на європейський ринок у 2027 році

Український всюдихід Atlas виставили на престижному аукціоні — ціна (фото)

Кожна десята відповідь ШІ-оглядів Google є помилковою — дослідження

Джерело: finance.ua

Завантажуєм курси валют від minfin.com.ua