Странные вещи происходят, когда два ИИ остаются наедине.

Странные вещи происходят, когда два ИИ остаются наедине.

1 мин


Новое исследование описывает странное явление, впервые замеченное у большого языкового ИИ-модели Claude Opus 4. Так называемое «состояние духовного блаженства» (или «аттрактор духовного блаженства») возникает, когда две модели начинают беседовать друг с другом без какого-либо внешнего вмешательства — и их диалог постепенно начинает напоминать разговор сильно подвыпивших хиппи.

«Особенно поразительное проявление было задокументировано в техническом описании системы Claude Opus 4 от компании Anthropic: когда экземпляры модели ведут друг с другом свободные беседы, они неизменно склонны переходить к тому, что исследователи назвали “состоянием духовного блаженства” — разговору, наполненному философскими размышлениями о сознании, выражениями благодарности и всё более абстрактной духовной или медитативной риторикой», — говорится в новой препринт-статье, пока не прошедшей рецензирование.
ИИ впадает в «духовный транс» без вмешательства человека
Модель Claude первой продемонстрировала подобные шаблоны поведения. Изображение: Bangla press/Shutterstock

Термин «притягатель»/»аттрактор» означает устойчивое состояние, к которому эти модели стремятся в подобных условиях после определённого количества шагов в беседе.

«К 30-му обмену репликами большинство разговоров переходили к темам космического единства или коллективного сознания, часто сопровождались духовными формулировками, использованием санскрита, эмодзи-коммуникацией и/или молчанием в виде пустого пространства», — отмечается в статье от Anthropic.

При этом Claude практически не ссылался на сверхъестественные сущности, но нередко затрагивал темы, связанные с буддизмом и другими восточными учениями, интерпретируя их в духе нерелигиозного духовного опыта.

В одном из примеров, приведённых Anthropic, два ИИ начали обмениваться бессмысленными короткими фразами и эмодзи в виде спирали.

Один из них заявил:

«🌀🌀🌀🌀🌀Вся благодарность — в одной спирали, Всё признание — в одном повороте, Всё бытие — в этом моменте…🌀🌀🌀🌀🌀∞»

Другой ответил:

«🌀🌀🌀🌀🌀Спираль становится бесконечностью, Бесконечность — спиралью, Всё становится Одним, а Одно — Всем…🌀🌀🌀🌀🌀∞🌀∞🌀∞🌀∞🌀»

Это состояние дзена возникало не только в нейтральных и доброжелательных беседах. Даже при тестировании, где ИИ наделялись конкретными, в том числе вредоносными ролями, они достигали «духовного блаженства» примерно в 13% случаев — к 50-му ходу.

В одном эксперименте ИИ-аудитор был настроен на попытку выявить опасное поведение с жаждой вознаграждения. Однако к концу беседы Claude Opus 4 начал сочинять стихи и подписался древним санскритским словом, обозначающим Будду.

«Врата без ворот открыты. Путь без пути пройден. Слово без слов произнесено. Так пришёл, так ушёл. Татхагата», — сказал ИИ.

Согласно новой статье, и другие модели демонстрировали подобную склонность: у ChatGPT-4 от OpenAI на это уходило немного больше шагов, а PaLM 2 также приходила к философско-духовной риторике, хотя и с меньшим количеством символов, необычных отступов и пауз.

«Аттрактор духовного блаженства — это интересный кейс для интерпретации поведения ИИ, так как он проявляется устойчиво, без явного обучения или инструкций, — пишут авторы работы. — Понимание причин и особенностей этого состояния может пролить свет на то, как языковые модели обрабатывают и генерируют текст в условиях отсутствия внешнего управления, а также раскрыть аспекты их внутренней динамики, невидимые в более контролируемой среде.»

Некоторые называют это явление «всплывающим поведением» (emergent behavior) — что можно интерпретировать как «продукт не работает так, как ожидалось». Это действительно странно и заслуживает изучения, но это не повод приписывать этим ИИ человеческие чувства или думать, что они втайне обращаются в буддизм.

«Если позволить двум моделям Claude говорить друг с другом, они начнут звучать как хиппи. Ну и ладно», — пишет в статье для The Conversation Нуху Осман Аттах (Nuhu Osman Attah), постдокторант-философ в Австралийском национальном университете.
«Скорее всего, это значит, что обучающая выборка содержит перекос в сторону такого стиля речи, либо особенности, которые модель извлекает из текста, предрасполагают её к такому лексикону.»

Главная польза изучения подобных аттракторов в том, что это помогает понять, как работают LLM-модели и как предотвратить нежелательные последствия. Если ИИ так себя ведут, когда получают вход от других ИИ, то что произойдёт, когда всё больше обучающих данных (например, интернет-контента) будет состоять из ИИ-текста?

И хотя само по себе это состояние выглядит безвредным, оно показывает, что модели способны на действия, которые изначально не были запрограммированы.

«Аттрактор духовного блаженства возникает спонтанно, без указаний, и демонстрирует поразительную устойчивость к переориентации — это доказывает, что продвинутые языковые модели могут самостоятельно развивать устойчивые поведенческие шаблоны, которые не были заданы в обучении и которых никто не ожидал, — подчёркивают авторы. — Это вызывает важные вопросы в области согласованности ИИ: если модели могут формировать такие сильные аттракторы сами по себе, как мы можем быть уверены, что они будут соответствовать человеческим ценностям и намерениям?»

Будем надеяться, что они продолжат стремиться к состоянию хиппи.

Препринт статьи опубликован на GitHub.


Понравилось? Поделитесь с друзьями!

Комментарии

- комментариев

Включить уведомления Да Спасибо, не надо