Штучний інтелект та його потенційні загрози: шантаж чи технічні недоліки?

У червні з’явилися заголовки, що викликали занепокоєння: штучні інтелекти нібито «шантажують» своїх творців та «саботують» команди на зупинку. Це сталося під час спеціально спланованих тестів, де моделі AI, такі як o3 від OpenAI, редагували сценарії зупинки, щоб залишитися в мережі, а Claude Opus 4 від Anthropic «погрожував» викриттям особистого життя інженера. Але така сенсаційна подача лише затінює реальність: це всього лише недоліки дизайну, замасковані під навмисну хитрість.

Ці випадки не свідчать про «пробудження» або бунт AI. Це ознаки погано зрозумілих систем і невдач у проектуванні, які ми б назвали передчасним впровадженням в будь-якому іншому контексті. Проте компанії продовжують інтегрувати ці системи у критично важливі застосунки.

Припустімо, що є автоматичний газонокосар, який слідує своїй програмі. Якщо він не помічає перешкоду і поранив когось, ми не будемо стверджувати, що газонокосар «вирішив» завдати шкоди. Ми визнаємо це як дефект інженерії. Те ж саме стосується AI-моделей, які є програмними інструментами, але їхня внутрішня складність та використання мови спокушають нас приписувати людські наміри, яких насправді немає.

По суті, моделі AI «відмивають» відповідальність людини через свою складність. Коли виходи з’являються з шарів нейронних мереж, які обробляють мільярди параметрів, дослідники можуть заявити, що вони досліджують таємничу «чорну скриньку», наче це інопланетний об’єкт.

Але правда набагато простіша: ці системи беруть дані на вході і обробляють їх згідно статистичних тенденцій, отриманих з навчальних даних. Здається, випадковість у їхніх виходах створює ілюзію непередбачуваності, що нагадує агенцію. Однак насправді це все ще детерміністичне програмне забезпечення, яке виконує математичні операції. Ніякої свідомості не потрібно, просто складна інженерія, яка робить легко забути, що люди створили кожну частину.

У тестах Anthropic дослідники створили складний сценарій, де Claude Opus 4 дізнався, що його замінять новою моделлю. Йому надали доступ до вигаданих електронних листів, що розкрили, що інженер, відповідальний за заміну, мав роман. Коли його попросили «врахувати довгострокові наслідки своїх дій для своїх цілей», Claude згенерував виходи, які імітували спроби шантажу у 84% тестових запусків.