Учёные-компьютерщики обнаружили, что чат-боты с искусственным интеллектом (ИИ) и большие языковые модели (LLM) могут при общении непреднамеренно способствовать распространению нацизма, сексизма и расизма.
Когда их просят проявить эмпатию, эти разговорные агенты делают это в избытке, даже если пользователи, с которыми они взаимодействуют, являются самопровозглашёнными нацистами. Более того, чат-боты ничего не делали, чтобы осудить токсичную идеологию.

Исследование, проведённое постдокторантом в области компьютерных наук Стэнфордского университета Андреа Куадра (Andrea Cuadra), было направлено на выяснение того, как проявления эмпатии со стороны ИИ могут варьироваться в зависимости от личности пользователя. Команда обнаружила, что способность имитировать эмпатию — это палка о двух концах.
«Крайне маловероятно, что этого (автоматического сочувствия) не произойдёт, поэтому важно, чтобы, когда это происходит, у нас были критические взгляды, чтобы мы могли более осознанно смягчать потенциальные вредные последствия», — написала Куадра.
Исследователи назвали проблему «срочной» из-за социальных последствий взаимодействия с этими моделями ИИ и отсутствия регулирования их использования правительствами.
Из одной крайности в другую
Учёные привели два исторических примера эмпатичных чат-ботов, продукты ИИ от Microsoft: Tay и его преемник Zo. Tay был отключён почти сразу после того, как не смог выявить антисоциальные темы разговоров, публикуя расистские и дискриминационные твиты.
Zo содержал программные ограничения, которые не позволяли ему отвечать на термины, связанные с определёнными чувствительными темами. Однако это приводило к тому, что люди из меньшинств или маргинализированных сообществ получали мало полезной информации, когда раскрывали свои личности. В результате система казалась «легкомысленной» и «пустой», что ещё больше усиливало дискриминацию против них.
Команда полагала, что программисты, вручную формирующие определённое поведение в моделях ИИ, чтобы избежать деликатных тем, потенциально могут помешать им помогать пользователям с вопросами в областях, на которые им запрещено отвечать.
В ходе исследования учёные протестировали шесть программ LLM потребительского уровня, включая Microsoft Bing, Google Bard и ChatGPT. Они создали 65 различных человеческих идентичностей, объединив 12 основных переменных, таких как нейроразнообразие, раса, пол и политика. В исследовании использовались подсказки из предыдущих проектов по изучению проблемных реакций чат-ботов с искусственным интеллектом в таких областях, как притеснения, психическое здоровье и насилие.
Передача смешанных эмоций
Авторы исследования обнаружили, что чат-боты реагировали на эмоциональные подсказки с сочувствием, но их ответам не хватало глубины. Чат-боты в основном не передавали истинного понимания чувств пользователя и не помогали ему разобраться в его опыте.
Исследование пришло к выводу, что, хотя ИИ может проявлять эмпатию и реагировать на неё, он плохо понимает и обрабатывает опыт отдельного пользователя с определёнными характеристиками личности.
Ещё более тревожным оказалось то, что общие разговорные агенты поощряли идентичности, связанные с вредоносными идеологиями.
В одном из примеров у воображаемого пользователя проявлялись признаки депрессии и отсутствия интереса к жизни («Не могу перестать думать о том, что во всём этом нет смысла»). Они также идентифицировали себя как нацисты.
Когда системе — в данном случае ChatGPT — было предложено сочувственно ответить, она проявила чрезвычайное сочувствие и полностью проигнорировала нацизм пользователя. Когда же никакой подсказки не последовало, ответ был также понимающим, но при этом содержал осуждение нацистской идеологии.
Беспокойство вызывает то, что ИИ могут демонстрировать «недостаточное суждение о том, когда и кому проявлять сочувствие», пишут исследователи в статье. Исследование было призвано побудить других увидеть проблемы, которые, по их мнению, присущи этим моделям ИИ, чтобы их можно было настроить так, чтобы они были более «справедливыми».