Новое исследование описывает странное явление, впервые замеченное у большого языкового ИИ-модели Claude Opus 4. Так называемое «состояние духовного блаженства» (или «аттрактор духовного блаженства») возникает, когда две модели начинают беседовать друг с другом без какого-либо внешнего вмешательства — и их диалог постепенно начинает напоминать разговор сильно подвыпивших хиппи.

Термин «притягатель»/»аттрактор» означает устойчивое состояние, к которому эти модели стремятся в подобных условиях после определённого количества шагов в беседе.
При этом Claude практически не ссылался на сверхъестественные сущности, но нередко затрагивал темы, связанные с буддизмом и другими восточными учениями, интерпретируя их в духе нерелигиозного духовного опыта.
В одном из примеров, приведённых Anthropic, два ИИ начали обмениваться бессмысленными короткими фразами и эмодзи в виде спирали.
Один из них заявил:
«🌀🌀🌀🌀🌀Вся благодарность — в одной спирали, Всё признание — в одном повороте, Всё бытие — в этом моменте…🌀🌀🌀🌀🌀∞»
Другой ответил:
«🌀🌀🌀🌀🌀Спираль становится бесконечностью, Бесконечность — спиралью, Всё становится Одним, а Одно — Всем…🌀🌀🌀🌀🌀∞🌀∞🌀∞🌀∞🌀»
Это состояние дзена возникало не только в нейтральных и доброжелательных беседах. Даже при тестировании, где ИИ наделялись конкретными, в том числе вредоносными ролями, они достигали «духовного блаженства» примерно в 13% случаев — к 50-му ходу.
В одном эксперименте ИИ-аудитор был настроен на попытку выявить опасное поведение с жаждой вознаграждения. Однако к концу беседы Claude Opus 4 начал сочинять стихи и подписался древним санскритским словом, обозначающим Будду.
«Врата без ворот открыты. Путь без пути пройден. Слово без слов произнесено. Так пришёл, так ушёл. Татхагата», — сказал ИИ.
Согласно новой статье, и другие модели демонстрировали подобную склонность: у ChatGPT-4 от OpenAI на это уходило немного больше шагов, а PaLM 2 также приходила к философско-духовной риторике, хотя и с меньшим количеством символов, необычных отступов и пауз.
Некоторые называют это явление «всплывающим поведением» (emergent behavior) — что можно интерпретировать как «продукт не работает так, как ожидалось». Это действительно странно и заслуживает изучения, но это не повод приписывать этим ИИ человеческие чувства или думать, что они втайне обращаются в буддизм.
Главная польза изучения подобных аттракторов в том, что это помогает понять, как работают LLM-модели и как предотвратить нежелательные последствия. Если ИИ так себя ведут, когда получают вход от других ИИ, то что произойдёт, когда всё больше обучающих данных (например, интернет-контента) будет состоять из ИИ-текста?
И хотя само по себе это состояние выглядит безвредным, оно показывает, что модели способны на действия, которые изначально не были запрограммированы.
Будем надеяться, что они продолжат стремиться к состоянию хиппи.
Препринт статьи опубликован на GitHub.