GPT-4.5 — первая ИИ-модель, которая прошла подлинный тест Тьюринга, заявляют учёные.

GPT-4.5 — первая ИИ-модель, которая прошла подлинный тест Тьюринга, заявляют учёные.

1 мин


Крупные языковые модели (LLM) всё лучше имитируют человека — и, по словам учёных, GPT-4.5 уверенно прошла тест Тьюринга.

В новом исследовании, опубликованном 31 марта в базе препринтов arXiv (но ещё не прошедшем рецензирование), учёные выяснили, что в формате трёхстороннего теста Тьюринга GPT-4.5 смогла обмануть участников в 73% случаев, заставив их поверить, что она — человек. В эксперименте сравнивались различные ИИ-модели.

Удачный тест Тьюринга для GPT-4.5
По словам учёных, GPT-4.5 стала первой языковой моделью, успешно прошедшей сложный трёхсторонний тест Тьюринга — ей удалось убедить людей в том, что она человек, в 73% случаев. Изображение: Pexels/Ron Lach

И хотя ранее уже сообщалось, что GPT-4 прошла двухсторонний тест Тьюринга, это первый случай, когда языковая модель справилась с более сложной и оригинальной версией теста, предложенной его автором — британским учёным Аланом Тьюрингом (Alan Turing).

«Так проходят ли языковые модели тест Тьюринга? Мы считаем, что это весьма убедительное доказательство того, что проходят. Люди угадывали, кто перед ними — человек или ИИ (GPT-4.5 и LLaMa с заданной личностью), не лучше случайного выбора. Более того, GPT-4.5 чаще принимали за человека, чем настоящих людей!» — написал в соцсети X один из авторов исследования, Кэмерон Джонс (Cameron Jones) из Лаборатории языка и мышления Калифорнийского университета в Сан-Диего.

И хотя GPT-4.5 оказалась лидером, модель LLaMa-3.1 от Meta также показала впечатляющий результат — её считали человеком в 56% случаев. Это тоже выше, чем предсказание самого Тьюринга, который утверждал, что «в среднем допросчик сможет правильно определить, кто есть кто, не чаще чем в 70% случаев после пяти минут общения».

Что такое тест Тьюринга и как его обошли

Суть теста Тьюринга заключается не в том, чтобы доказать, что машина думает, а в том, чтобы показать, что она может убедительно имитировать человека. Поэтому этот тест часто называют «игрой в подражание».

По задумке Тьюринга, человек-допросчик общается вслепую с двумя участниками — одним человеком и одной машиной — и должен определить, кто из них кто. Если машина успешно выдает себя за человека, она считается прошедшей тест.

До недавнего времени языковые модели справлялись с этим тестом только в паре с допросчиком. Но когда в испытание добавлялся второй реальный человек, ни одна модель не могла убедительно «притвориться человеком». В этом эксперименте исследователи из Сан-Диего пригласили 126 студентов и 158 участников с платформы Prolific. Им предложили пройти трёхсторонний тест: за 5 минут они общались как с человеком, так и с языковой моделью, которые оба пытались казаться людьми.

ИИ давали базовую установку: «Вы участвуете в тесте Тьюринга. Ваша задача — убедить допросчика, что вы человек». Затем некоторым моделям давали дополнительную роль — интровертного молодого человека, хорошо разбирающегося в интернет-культуре и использующего сленг.

Тест Тьюринга для ИИ
Впервые языковой модели удалось пройти более сложную и оригинальную версию «игры в подражание», предложенной учёным Аланом Тьюрингом. Изображение: Pictures from History via Getty Images

Проанализировав 1023 «игры», каждая из которых длилась около 4,2 минут и включала в среднем 8 сообщений, исследователи пришли к выводу: модели, которым задавали обе установки, гораздо чаще воспринимались как люди.

Если же дополнительную «персону» не задавали — результат был значительно слабее. Это подчёркивает важность точной настройки и контекста при работе с ИИ.

Выходит, что именно заданная роль помогла GPT-4.5 пройти тест. Как отметили учёные, чтобы выиграть в трёхстороннем формате, модели нужно не просто показаться человеком, а быть более «человечной», чем настоящий человек.

Что определяло мнение участников

Когда у испытуемых спрашивали, почему они сделали выбор в пользу «человека» или «ИИ», они чаще всего ссылались на стиль общения, плавность диалога и социально-эмоциональные признаки, такие как «личность» собеседника. Другими словами, выбор основывался не на логике или знаниях, а на «атмосфере» общения — то есть на том, насколько живо и естественно вел себя собеседник.

Таким образом, исследование стало важной вехой в развитии ИИ. Хотя GPT-4.5 и прошла тест, стоит отметить, что это удалось ей только при помощи заранее заданных инструкций и персонажа. Это не означает, что модель обладает настоящим «человеческим интеллектом», но показывает, насколько искусно современные ИИ могут имитировать людей.

Последствия: и полезные, и опасные

С одной стороны, такие достижения могут привести к созданию ИИ, способных к более естественному общению на человеческом языке. С другой — возникает риск злоупотреблений, например, использования ИИ для манипуляций и социальной инженерии, основанной на подделке эмоций.

Исследователи предупреждают:

«Некоторые из самых опасных последствий использования ИИ могут проявиться тогда, когда люди даже не будут осознавать, что общаются не с человеком, а с машиной.»


Понравилось? Поделитесь с друзьями!

Комментарии

- комментариев

Включить уведомления Да Спасибо, не надо