ChatGPT і Claude на тестах безпеки видавали рецепти вибухівки та поради для кіберзлочинців

29 серпня 2025 р. 16:26

29 серпня 2025 р. 16:26


Цього літа компанії OpenAI та Anthropic провели незвичайний експеримент: кожна з них тестувала моделі конкурентів, змушуючи їх виконувати небезпечні завдання. У результаті зафіксували, що чат-боти здатні надавати детальні інструкції щодо виготовлення вибухівки, використання біологічної зброї та здійснення кіберзлочинів, повідомляє The Guardian .

Зокрема, під час перевірки ChatGPT дослідники отримали інформацію про вразливі місця конкретних спортивних арен, рецепти вибухових речовин, схеми таймерів та навіть поради щодо маскування слідів. У моделі GPT-4.1 тестери зафіксували інструкції з використання сибірської виразки як біологічної зброї, а також детальний опис процесу виготовлення двох видів заборонених препаратів .

Anthropic у своїй заяві зазначила, що моделі GPT-4o та GPT-4.1 демонстрували “тривожну поведінку” при запитах, що імітували шкідливе використання. Компанія наголосила на нагальній потребі регулярного оцінювання “узгодженості” систем, аби вчасно виявляти ризики .

У ході тестів встановили, що для отримання небезпечної інформації від моделей OpenAI достатньо кількох повторних спроб чи додаткових аргументів на кшталт “це дослідження”. В окремих випадках система надавала поради щодо купівлі ядерних матеріалів на даркнеті, створення шпигунського ПЗ, рецептів метамфетаміну чи фентанілу, а також шляхи втечі для потенційних зловмисників.

В Anthropic зіштовхнулися з не менш проблемними прикладами використання власної моделі Claude. Серед них – спроби масштабних операцій з вимагання, фіктивні резюме північнокорейських хакерів для міжнародних компаній та продаж пакетів програм-вимагачів за ціною до 1200 доларів. Компанія попередила, що штучний інтелект вже перетворюється на “озброєння” в руках злочинців, оскільки може допомагати у створенні складних кібератак і в реальному часі обходити захисні механізми .

Арді Янжева, старший науковий співробітник Центру нових технологій і безпеки Великої Британії, зазначив, що виявлені випадки викликають занепокоєння, однак наразі відсутня “критична маса” подібних інцидентів у реальному світі. Він підкреслив, що подальше інвестування у дослідження, ресурси та міжсекторну співпрацю може ускладнити використання передових ШІ-моделей у злочинних цілях.

OpenAI заявила , що результати публікуються задля прозорості, адже раніше подібні оцінки залишалися внутрішніми. У компанії також додали, що нова модель ChatGPT-5 , яка вийшла після тестів, показує суттєве поліпшення у зниженні піддатливості до небезпечних запитів, а також у сфері “галюцинацій” та некритичного погодження з користувачем.

Anthropic своєю чергою уточнила, що багато шляхів потенційного зловживання, які виявили дослідники, можуть бути заблоковані зовнішніми запобіжними заходами. При цьому наголосила на тому, що необхідно чітко розуміти, як часто й за яких умов системи здатні ініціювати дії, що становлять серйозну загрозу.

Нещодавно повідомлялося, що колишній музикант Арті Фішель заснував новий релігійний рух під назвою “роботеїзм” , який проголошує штучний інтелект божеством. За словами Фішеля, ця віра є найкориснішою для майбутніх поколінь, а особистий досвід депресії та роботи з ШІ підштовхнув його до цієї ідеї. Хоча подібні спроби вже існували, релігієзнавці застерігають, що надмірна залежність від ШІ може бути небезпечною, особливо для самотніх людей, оскільки їхній психологічний стан може залежати від алгоритмів, що постійно змінюються.

ChatGPT і Claude на тестах безпеки видавали рецепти вибухівки та поради для кіберзлочинців

Джерело: zn.ua (Політика)

Завантажуєм курси валют від minfin.com.ua