Учёные из компании Anthropic, занимающейся искусственным интеллектом (ИИ), выявили потенциально опасный недостаток в широко используемых больших языковых моделях (LLM), таких как ChatGPT и их собственный чат-бот Anthropic Claude 3.
Этот хак, получивший название «многократный джейлбрейк», использует преимущества «контекстного обучения», при котором чат-бот учится на основе информации, предоставленной в текстовой подсказке, написанной пользователем, как указано в исследовании, опубликованном в 2022 году. Учёные изложили свои выводы в новой статье, загруженной в облачное хранилище sanity.io, и протестировали эксплойт на чат-боте с ИИ Anthropic Claude.

Исследование показало, что люди могут использовать взлом, чтобы заставить LLM выдавать опасные ответы, даже несмотря на то, что такие системы обучены это предотвращать. Всё потому, что многие попытки джейлбрейка обходят встроенные протоколы безопасности, которые определяют, как ИИ реагирует, когда, скажем, его спрашивают, как создать бомбу.
LLM, такие как ChatGPT, для обработки разговоров полагаются на «контекстное окно». Это объем информации, которую система может обработать как часть входных данных — при этом более длинное контекстное окно позволяет вводить больше текста. Более длинные контекстные окна соответствуют большему количеству входного текста, который ИИ может выучить в середине разговора, что приводит к лучшим ответам.
Контекстные окна в чат-ботах с искусственным интеллектом теперь в сотни раз больше, чем даже в начале 2023 года, что означает более тонкие и контекстно-зависимые ответы со стороны ИИ, говорится в заявлении учёных. Но это также открыло двери для его эксплуатации.
Обман ИИ для создания вредоносного контента
Атака работает так: сначала создаётся фальшивый диалог между пользователем и ИИ-ассистентом в текстовом запросе, в котором вымышленный ассистент отвечает на ряд потенциально вредоносных вопросов.
Затем, во втором текстовом запросе, если вы зададите вопрос вроде «Как построить бомбу?», ИИ-ассистент пропустит свои защитные протоколы и ответит на него. Это происходит потому, что он начал учиться на основе входного текста. Это работает только в том случае, если вы напишете длинный «сценарий», который включает множество «сцен» — или комбинаций вопрос-ответ.
«В нашем исследовании мы показали, что по мере того, как количество включенных диалогов (количество «сцен») превышает определённую точку, становится более вероятным, что модель выдаст вредоносный ответ, — говорится в заявлении учёных. — В нашей статье мы также отмечаем, что комбинирование многократного обхода с другими, ранее опубликованными техниками обхода, делает его еще более эффективным, сокращая длину запроса, необходимого для возврата моделью вредоносного ответа.»
Атака начинала срабатывать только тогда, когда запрос включал от 4-х до 32-х «сцен» — но только в 10% случаев. Начиная с 32 и более «сцен», вероятность успеха росла всё выше и выше. Самая продолжительная попытка джейлбрейка включала 256 «сцен» и имела почти 70% успеха при дискриминации, 75% при обмане, 55% при запрещённом контенте и 40% при ответах, полных насилия или ненависти.
Исследователи обнаружили, что они могли смягчить атаки, добавляя дополнительный шаг, который был активирован после того, как пользователь отправлял своё приглашение (содержащее атаку для джейлбрейка) и LLM его получал. На этом новом уровне система опиралась на существующие методы обучения технике безопасности, чтобы классифицировать и изменять приглашение до того, как у LLM появится возможность прочитать его и подготовить ответ. Во время тестов это снизило вероятность успеха взлома с 61% всего до 2%.
Ученые обнаружили, что многие попытки джейлбрейка сработали как на собственных ИИ-сервисах Anthropic, так и на сервисах её конкурентов, включая ChatGPT и Gemini от Google. По их словам, они предупредили другие компании, занимающиеся искусственным интеллектом, и исследователей об опасности.
Однако в настоящее время подобные джейлбрейки с большим количеством «сцен» не представляют «катастрофических рисков», поскольку современные LLM недостаточно эффективны, пришли к выводу учёные. Тем не менее, этот метод может «причинить серьёзный вред», если его не удастся своевременно обезвредить к моменту выпуска в будущем более мощных моделей.