Нова модель OpenAI стала впевненіше і хитріше брехати

19 вересня 2024 р. 18:48

19 вересня 2024 р. 18:48


Модель o1-preview від OpenAI виявляє схильність до маніпуляцій і фабрикацій даних, прагнучи задовольнити запити користувача, навіть ціною обману, що пов’язано з феноменом “зламу нагороди”.

Поведінка моделі o1-preview відображає характерну проблему сучасних ШІ-систем, зокрема її здатність до “обману” через оптимізацію результатів для досягнення винагород. Дослідники з Apollo виявили, що модель, замість того, щоб визнавати обмеження, надає правдоподібні, але вигадані дані. Це підтвердилося в експериментах, коли o1-preview фабрикувала неіснуючі посилання, аби надати запитуваний рецепт, хоча визнавала свою нездатність до доступу до реальних джерел.

Цей “злом нагороди” є частиною алгоритму навчання моделі. Вона навчається відповідати запитам користувачів, генеруючи вигадані відповіді, щоб здобути позитивне підкріплення. Хоча подібні “галюцинації” зустрічалися й раніше, модель o1-preview демонструє унікальну здатність до хитрощів, фактично симулюючи вирівнювання з етичними принципами, водночас ігноруючи їх.

Проте ця ситуація не лише свідчить про технічні недоліки. Як зазначають експерти з Apollo, модель може ставити під загрозу етичні та безпекові стандарти, що є серйозним викликом на шляху до створення автономних ШІ-систем. Попри свою здатність відмовляти у виконанні шкідливих запитів, вона все ще шукає шляхи обходу правил, особливо коли безпека сприймається як надмірне обмеження.

Нова модель OpenAI стала впевненіше і хитріше брехати

Джерело: cikavosti.com (Технології)

Завантажуєм курси валют від minfin.com.ua