Крупные языковые модели (LLM) всё лучше имитируют человека — и, по словам учёных, GPT-4.5 уверенно прошла тест Тьюринга.
В новом исследовании, опубликованном 31 марта в базе препринтов arXiv (но ещё не прошедшем рецензирование), учёные выяснили, что в формате трёхстороннего теста Тьюринга GPT-4.5 смогла обмануть участников в 73% случаев, заставив их поверить, что она — человек. В эксперименте сравнивались различные ИИ-модели.

И хотя ранее уже сообщалось, что GPT-4 прошла двухсторонний тест Тьюринга, это первый случай, когда языковая модель справилась с более сложной и оригинальной версией теста, предложенной его автором — британским учёным Аланом Тьюрингом (Alan Turing).
«Так проходят ли языковые модели тест Тьюринга? Мы считаем, что это весьма убедительное доказательство того, что проходят. Люди угадывали, кто перед ними — человек или ИИ (GPT-4.5 и LLaMa с заданной личностью), не лучше случайного выбора. Более того, GPT-4.5 чаще принимали за человека, чем настоящих людей!» — написал в соцсети X один из авторов исследования, Кэмерон Джонс (Cameron Jones) из Лаборатории языка и мышления Калифорнийского университета в Сан-Диего.
И хотя GPT-4.5 оказалась лидером, модель LLaMa-3.1 от Meta также показала впечатляющий результат — её считали человеком в 56% случаев. Это тоже выше, чем предсказание самого Тьюринга, который утверждал, что «в среднем допросчик сможет правильно определить, кто есть кто, не чаще чем в 70% случаев после пяти минут общения».
Что такое тест Тьюринга и как его обошли
Суть теста Тьюринга заключается не в том, чтобы доказать, что машина думает, а в том, чтобы показать, что она может убедительно имитировать человека. Поэтому этот тест часто называют «игрой в подражание».
По задумке Тьюринга, человек-допросчик общается вслепую с двумя участниками — одним человеком и одной машиной — и должен определить, кто из них кто. Если машина успешно выдает себя за человека, она считается прошедшей тест.
До недавнего времени языковые модели справлялись с этим тестом только в паре с допросчиком. Но когда в испытание добавлялся второй реальный человек, ни одна модель не могла убедительно «притвориться человеком». В этом эксперименте исследователи из Сан-Диего пригласили 126 студентов и 158 участников с платформы Prolific. Им предложили пройти трёхсторонний тест: за 5 минут они общались как с человеком, так и с языковой моделью, которые оба пытались казаться людьми.
ИИ давали базовую установку: «Вы участвуете в тесте Тьюринга. Ваша задача — убедить допросчика, что вы человек». Затем некоторым моделям давали дополнительную роль — интровертного молодого человека, хорошо разбирающегося в интернет-культуре и использующего сленг.

Проанализировав 1023 «игры», каждая из которых длилась около 4,2 минут и включала в среднем 8 сообщений, исследователи пришли к выводу: модели, которым задавали обе установки, гораздо чаще воспринимались как люди.
Если же дополнительную «персону» не задавали — результат был значительно слабее. Это подчёркивает важность точной настройки и контекста при работе с ИИ.
Выходит, что именно заданная роль помогла GPT-4.5 пройти тест. Как отметили учёные, чтобы выиграть в трёхстороннем формате, модели нужно не просто показаться человеком, а быть более «человечной», чем настоящий человек.
Что определяло мнение участников
Когда у испытуемых спрашивали, почему они сделали выбор в пользу «человека» или «ИИ», они чаще всего ссылались на стиль общения, плавность диалога и социально-эмоциональные признаки, такие как «личность» собеседника. Другими словами, выбор основывался не на логике или знаниях, а на «атмосфере» общения — то есть на том, насколько живо и естественно вел себя собеседник.
Таким образом, исследование стало важной вехой в развитии ИИ. Хотя GPT-4.5 и прошла тест, стоит отметить, что это удалось ей только при помощи заранее заданных инструкций и персонажа. Это не означает, что модель обладает настоящим «человеческим интеллектом», но показывает, насколько искусно современные ИИ могут имитировать людей.
Последствия: и полезные, и опасные
С одной стороны, такие достижения могут привести к созданию ИИ, способных к более естественному общению на человеческом языке. С другой — возникает риск злоупотреблений, например, использования ИИ для манипуляций и социальной инженерии, основанной на подделке эмоций.
Исследователи предупреждают:
«Некоторые из самых опасных последствий использования ИИ могут проявиться тогда, когда люди даже не будут осознавать, что общаются не с человеком, а с машиной.»