Создатель ChatGPT компания OpenAI анонсировала свою новейшую модель искусственного интеллекта (ИИ), GPT-4o, более болтливого и более человечного чат-бота с искусственным интеллектом, который может интерпретировать аудио и видео пользователя и отвечать в режиме реального времени.
Серия демонстрационных материалов, выпущенных фирмой, показывает, что GPT-4 Omni помогает потенциальным пользователям в таких вещах, как подготовка к собеседованию — убедившись, что они выглядят презентабельно для собеседования, — а также позвонив агенту службы поддержки клиентов, чтобы получить новый iPhone.
Другие демо-версии показывают, что он может делиться отцовскими шутками, переводить двуязычный разговор в реальном времени, быть судьёй в матче «камень-ножницы-бумага» между двумя пользователями и отвечать с сарказмом, когда его спрашивают. В одной из демонстраций даже показано, как ChatGPT реагирует на первое знакомство со щенком пользователя.
«Ну, здравствуй, Боузер! Разве ты не прелестнейшее создание?» — воскликнул чат-бот.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
«Он похож на ИИ из фильмов; и меня до сих пор немного удивляет, что он реален, — заявил генеральный директор фирмы Сэм Олтмен, более известный как Сэм Альтман (Sam Altman), в своём блоге от 13 мая. — Оказывается, что достижение времени отклика и выразительности на человеческом уровне — это большое изменение.»
Версия для ввода только текста и изображений была запущена 13 мая, а полная версия выйдет в ближайшие недели, сообщила OpenAI в недавнем сообщении в X.
GPT-4o будет доступен как платным, так и бесплатным пользователям ChatGPT, а также будет доступен через API ChatGPT.
В OpenAI заявили, что буква «o» в GPT-4o означает «omni», что представляет собой шаг к более естественному взаимодействию человека с компьютером.
Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.
It's extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx
— Greg Brockman (@gdb) May 13, 2024
Способность GPT-4o обрабатывать любой ввод текста, звука и изображения одновременно является значительным достижением по сравнению с более ранними инструментами искусственного интеллекта OpenAI, такими как ChatGPT-4, который часто «теряет много информации», когда вынужден выполнять несколько задач одновременно.
OpenAI заявила, что «GPT-4o особенно хорошо видит и понимает звук по сравнению с существующими моделями», что даже включает в себя распознавание эмоций пользователя и характера дыхания.
Он также «намного быстрее» и «на 50% дешевле», чем GPT-4 Turbo в API OpenAI.
Новый инструмент искусственного интеллекта, утверждает OpenAI, способен реагировать на аудиовходы всего за 2,3 секунды, со средним временем 3,2 секунды, что, по их словам, сопоставимо с временем реакции человека в обычном разговоре.