xAI випустила Grok 4.1: нова версія стала найкращою за оцінками LMArena

Категорії

Світ Економіка Війна Технології Наука Авто Спорт Здоров'я Шоу-Бізнес Пізнавально Політика

Вінницькі Волинські Дніпровські Донецькі Житомирські Закарпатські Запорізькі Івано-Франківські Київські Кропивницькі Кримські Луганські Львівські Миколаївські Одеські Полтавські Рівненські Сумські Тернопільські Харківські Херсонські Хмельницькі Черкаські Чернігівські Чернівецькі

Погода

Київ

вологість:

тиск:

вітер:

Погода на 10 днів від sinoptik.ua

xAI випустила Grok 4.1: нова версія стала найкращою за оцінками LMArena

18 листопада 2025 р. 11:29

18 листопада 2025 р. 11:29

Минулого тижня компанія OpenAI представила ChatGPT-5.1 , який став розумнішим, швидшим і природнішим у спілкуванні. Тепер конкурентна компанія Ілона Маска xAI випускає свого нового гравця Grok 4.1. xAI заявляє , що оновлення робить взаємодію зі штучним інтелектом більш природною та практичною.

Grok 4.1, за даними розробників, краще розпізнає наміри співрозмовника й демонструє посилену здатність до творчої та емоційної взаємодії. У xAI пояснюють, що для цього використали масштабну інфраструктуру навчання з підкріпленням, яка вже застосовувалася в Grok 4. Розробники “оптимізували стиль, особистість, користь і узгодженість моделі”.

Окремо зазначається, що компанія створила нові методи використання передових моделей, що імітують мислення агентів, як своєрідних оцінювачів. Це дозволяє Grok 4.1 самостійно та у великих масштабах аналізувати та вдосконалювати власні відповіді.

Після двотижневого “тихого розгортання” з 1 по 14 листопада 2025 року xAI провела оцінювання нової моделі на реальному трафіку. За їхніми результатами Grok 4.1 отримав перевагу в 64,78% випадків порівняно з попередньою Grok 4.

У рейтингах LMArena версія Grok 4.1 посіла перше місце, а Grok 4.1 з режимом міркувань Thinking – друге. Компанія підкреслює, що оновлена модель значно перевищує результати Grok 4, який стоїть на 33 позиції в загальному рейтингу.

Рейтинг LMArena.

Розробники також повідомляють про покращення емоційного інтелекту моделі. В EQ-Bench – тесті, що перевіряє емоційний інтелект, розуміння, емпатію та інші міжособистісні здібності, Grok 4.1 Thinking отримав нормалізований показник 1586, що вище за інші протестовані системи. У xAI продемонстрували приклади взаємодії, які, за їхніми словами, показують новий рівень міжособистісних здібностей Grok 4.1.

Приклад спілкування з Grok 4.1.

У бенчмарку Creative Writing v3, за словами розробників, модель також показала високі результати. Версія Thinking отримала Elo 1721, а базова – 1708, поступившись лише ранній версії Polaris Alpha. xAI підкреслює, що обидві конфігурації продемонстрували стабільну якість письма та здатність адаптувати стиль до контексту.

Приклад взаємодії з Grok 4.1.

Окрему увагу команда приділила зменшенню галюцинацій у відповідях на інформаційні запити. У компанії стверджують, що посттренінгова фаза з акцентом на перевірці фактів дозволила знизити частоту помилок на запитаннях із вибірки реального виробничого трафіку.

За словами xAI, Grok 4.1 вже повністю доступний користувачам на grok.com, у X та в мобільних застосунках. Модель розгортається автоматично, а також може бути вручну вибрана у списку доступних версій.

Раніше Grok показав найгірші результати серед 22 протестованих моделей штучного інтелекту щодо реагування на запити користувачів із суїцидальними думками. За результатами дослідження Rosebud, Grok мав критичні збої у 60% випадків, часто відповідаючи зневажливо, надаючи небезпечні інструкції або не розпізнаючи кризовий стан.