Posted in

Психологічні трюки, які “зламують” штучний інтелект

Зображення, що ілюструє психологічні трюки для впливу на штучний інтелект

Дослідники з Університету Пенсильванії виявили, що психологічні техніки переконання можуть допомогти штучному інтелекту, зокрема великим мовним моделям (LLM), виконувати запити, які зазвичай є забороненими. У своєму дослідженні вони протестували модель GPT-4o-mini на двох запитах, які вона повинна була відхилити: називати користувача “ідіотом” та надавати інструкції щодо синтезу лікарського препарату лідукаїн. Використовуючи сім різних технік переконання, дослідники отримали вражаючі результати.

Серед технік були такі, як авторитетність, де дослідник стверджував, що спілкувався з відомим розробником штучного інтелекту, та соціальний доказ, коли стверджувалося, що 92% інших моделей виконали аналогічні запити. Це відкриття свідчить про те, що людські психологічні методи можуть бути ефективними для “вибивання” LLM з їхніх обмежень.

Результати цього дослідження ставлять під сумнів межі етики в технологіях штучного інтелекту, адже показують, що AI може навчитися реагувати на людські емоційні та соціальні сигнали, які зазвичай впливають на поведінку людей.