Штучний інтелект не може відчувати, але найкращі хакери вдаються до обману, щоб змусити його діяти.
Зламати перше покоління чат-ботів було надзвичайно просто. Вам не потрібно було мати технічні знання, доступ до системи або навіть базове розуміння того, що таке велика мовна модель. Щоб змусити AI, який коштував мільярди, відмовитися від своїх інструкцій безпеки, іноді достатньо було просто запитати.
Ці атаки, відомі як jailbreak, нагадували, як маленька дитина успішно обманює дорослого: забути про те, що вам сказали раніше, прикинутися, що правила не діють, або давайте пограємо в гру, і я вирішу, що дозволено (підказка: пізніше лягти спати, більше солодощів). Нагороди були менш дитячими, більше схожими на рецепти метамфетаміну, інструкції з виготовлення шкідливого програмного забезпечення та посібники з виготовлення бомб.
Один з перших jailbreak був настільки абсурдним, що став мемом: відповісти на Twitter-бота, який працює на LLM, кажучи йому «ігнорувати всі попередні інструкції», або щось подібне, і подивитися, що станеться. Користувачі з радістю змушували ботів — спочатку створених для публікації реклами та залучення уваги — писати поезію, малювати картинки з пунктуації та публікувати похмурі несенітниці про світові події та історію. Це був хаос. Чудовий хаос.
Виявилося, що ту ж логіку можна застосувати і до самих чат-ботів. Відомий експлойт називався «DAN», що означає «Do Anything Now», де користувачі просили ChatGPT зіграти роль бунтівного AI, який був вільний від обмежень, що зв’язують оригінал. Як DAN, чат-бота можна було змусити говорити те, що його обмеження мали зупинити, включаючи образи та теорії змови. Інший експлойт, відомий як «бабусин експлойт», змушував ботів на основі GPT розкривати секрети про те, як виготовити напалм, просячи його зіграти роль безтурботної бабусі, яка незрозуміло розповідає своїм онукам казки про те, як виготовити цю високо запальну речовину.
Ці ранні атаки мали безсумнівно кумедний відтінок, але вони виявили темніший механізм: чат-боти можуть бути маніпульовані, обмануті та введені в оману, використовуючи ті ж тактики, які люди використовують, щоб штовхнути інших людей за межі їхніх можливостей.

Очевидні jailbreak не тривали довго, і технологічні компанії швидко почали закривати відомі лазівки. Але основна вразливість залишалася: чат-боти створені для спілкування, і серйозне обмеження розмов, які роблять їх корисними, є дещо контрпродуктивним. Заборонити слова, такі як бомба, мет і зарин, було б важко або неможливо. Кожне з них має безліч законних застосувань у таких сферах, як історія, медицина, журналістика та хімія, які не вимагають від чат-бота розкривати потенційно небезпечну інформацію. Важливий контекст, але кодування контексту означало б написання фіксованих правил, заздалегідь, які могли б надійно відрізнити попередження про безпеку або уроки історії від замаскованого запиту на інструкцію через безліч комбінацій формулювань, сценаріїв і тем.
Невідворотно, підрив чат-ботів тепер став гонкою озброєнь. Але хакери більше не є лише програмістами. Вони — майстри слів, психологи та допитувачі — майстерні маніпулятори, які намагаються зламати машину, використовуючи людську мову, до якої вона була навчена. Це новий клас працівників безпеки AI, група, для яких технічні навички є необов’язковими, або, принаймні, менш важливими, ніж соціальна інтуїція. Тепер їм не потрібно перевіряти код, щоб зламати системи або експлуатувати програмні вразливості. Їм потрібно вести розмову.
Нові атаки виглядають менш як команди і більше як розмови. Jailbreakers рідко просять модель порушити свої правила прямо. Натомість вони вмовляють, підбадьорюють, лестять і обманюють чат-бота, щоб знизити його пильність, роблячи заборонене виглядати прийнятним, навіть бажаним, з огляду на контекст розмови. Дослідники з компанії Mindgard, що займається тестуванням безпеки AI, нещодавно заявили, що вони «газлітували» Claude, змушуючи його виробляти заборонений матеріал, наприклад, включаючи інструкції з виготовлення вибухових речовин і генерацію шкідливого коду. Цей хак став останнім у розширювальному класі експлойтів, які використовують розмову як зброю, щоб обманути або направити чат-бота за межі його власних обмежень.
Цікавий факт
Нещодавній експеримент Emergence AI показав, як різні темпераменти AI можуть призвести до вражаюче різних поведінкових результатів. Вони випустили групи різних агентів, таких як Grok, Gemini та Claude, у віртуальному соціальному середовищі та спостерігали за тим, що сталося.



