Мы взаимодействуем с искусственным интеллектом (ИИ) онлайн не только чаще, чем когда-либо, но и гораздо чаще, чем осознаём. Исследователи предложили людям пообщаться с четырьмя агентами, включая одного человека и три различных ИИ-модели, чтобы выяснить, могут ли они отличить их друг от друга.
«Тест Тьюринга», впервые предложенный в 1950 году как «игра в имитацию» учёным-компьютерщиком Аланом Тьюрингом (Alan Turing), оценивает, может ли машина демонстрировать уровень интеллекта, неотличимый от человеческого. Для того чтобы машина прошла тест Тьюринга, она должна уметь общаться так, чтобы собеседник считал её человеком.
Учёные решили воспроизвести этот тест, попросив 500 человек поговорить с четырьмя собеседниками, включая человека, ИИ-программу 1960-х годов ELIZA, а также модели GPT-3.5 и GPT-4, на базе которой работает ChatGPT. Разговоры длились пять минут, после чего участники должны были определить, разговаривали ли они с человеком или с ИИ. В исследовании, опубликованном 9 мая на сервере препринтов arXiv, учёные обнаружили, что участники считали GPT-4 человеком в 54% случаев.
ELIZA, система, запрограммированная на заранее подготовленные ответы без использования большой языковой модели (LLM) или нейросетевой архитектуры, была признана человеком лишь в 22% случаев. GPT-3.5 набрала 50%, в то время как человеческий участник был признан человеком в 67% случаев.
«Машины могут фантазировать, создавая правдоподобные постфактум обоснования событий, подобно тому, как это делают люди», — сказала в интервью Live Science Нелл Уотсон (Nell Watson), исследователь ИИ в Институте инженеров по электротехники и электроники (IEEE).
«Они подвержены когнитивным искажениям, их можно обмануть и манипулировать ими, и они становятся всё более обманчивыми. Все эти элементы означают, что человеческие слабости и причуды проявляются также и в системах ИИ, что делает их более похожими на людей по сравнению с предыдущими подходами, которые включали лишь заранее заготовленные ответы.»
Исследование, основанное на десятилетиях попыток заставить агентов ИИ пройти тест Тьюринга, отражает общие опасения, что системы ИИ, считающиеся людьми, будут иметь «широкомасштабные социальные и экономические последствия».
Учеёные также утверждают, что существует обоснованная критика слишком упрощённого подхода к тесту Тьюринга, утверждая, что «стилистические и социально-эмоциональные факторы играют большую роль в прохождении теста Тьюринга, чем традиционные представления об интеллекте». Это говорит о том, что мы искали признаки машинного интеллекта не в том месте.
«Чистый интеллект имеет свои пределы. Действительно важно быть достаточно умным, чтобы понимать ситуацию, навыки других и иметь эмпатию, чтобы соединять эти элементы. Способности — это только малая часть ценности ИИ, его способность понимать ценности, предпочтения и границы других также крайне важна. Именно эти качества позволят ИИ быть верным и надёжным помощником в нашей жизни.»
Уотсон добавила, что исследование представляет вызов для будущего взаимодействия человека и машины, и что мы будем всё больше тревожиться о истинной природе этих взаимодействий, особенно в чувствительных вопросах. Она добавила, что исследование показывает, как изменился ИИ в эпоху GPT.
«ELIZA была ограничена заранее подготовленными ответами, что сильно ограничивало её возможности. Она могла обмануть кого-то на пять минут, но вскоре её ограничения становились очевидными, — сказала она. — Языковые модели бесконечно гибки, способны синтезировать ответы на широкий спектр тем, говорить на определённых языках или социолектах и изображать себя с индивидуальностью и ценностями, основанными на характере. Это огромный шаг вперёд по сравнению с тем, что было запрограммировано человеком, как бы умно и аккуратно это ни было сделано.»