Последнее обновление OpenAI, по сути, позволяет пользователям вести прямую трансляцию с помощью ChatGPT.
Изображение: Vinegret.Net

Последнее обновление OpenAI, по сути, позволяет пользователям вести прямую трансляцию с помощью ChatGPT.

4 мин


Создатель ChatGPT компания OpenAI анонсировала свою новейшую модель искусственного интеллекта (ИИ), GPT-4o, более болтливого и более человечного чат-бота с искусственным интеллектом, который может интерпретировать аудио и видео пользователя и отвечать в режиме реального времени.

Серия демонстрационных материалов, выпущенных фирмой, показывает, что GPT-4 Omni помогает потенциальным пользователям в таких вещах, как подготовка к собеседованию — убедившись, что они выглядят презентабельно для собеседования, — а также позвонив агенту службы поддержки клиентов, чтобы получить новый iPhone.

Другие демо-версии показывают, что он может делиться отцовскими шутками, переводить двуязычный разговор в реальном времени, быть судьёй в матче «камень-ножницы-бумага» между двумя пользователями и отвечать с сарказмом, когда его спрашивают. В одной из демонстраций даже показано, как ChatGPT реагирует на первое знакомство со щенком пользователя.

«Ну, здравствуй, Боузер! Разве ты не прелестнейшее создание?» — воскликнул чат-бот.

«Он похож на ИИ из фильмов; и меня до сих пор немного удивляет, что он реален, — заявил генеральный директор фирмы Сэм Олтмен, более известный как Сэм Альтман (Sam Altman), в своём блоге от 13 мая. — Оказывается, что достижение времени отклика и выразительности на человеческом уровне — это большое изменение.»

Версия для ввода только текста и изображений была запущена 13 мая, а полная версия выйдет в ближайшие недели, сообщила OpenAI в недавнем сообщении в X.

GPT-4o будет доступен как платным, так и бесплатным пользователям ChatGPT, а также будет доступен через API ChatGPT.

В OpenAI заявили, что буква «o» в GPT-4o означает «omni», что представляет собой шаг к более естественному взаимодействию человека с компьютером.

Способность GPT-4o обрабатывать любой ввод текста, звука и изображения одновременно является значительным достижением по сравнению с более ранними инструментами искусственного интеллекта OpenAI, такими как ChatGPT-4, который часто «теряет много информации», когда вынужден выполнять несколько задач одновременно.

OpenAI заявила, что «GPT-4o особенно хорошо видит и понимает звук по сравнению с существующими моделями», что даже включает в себя распознавание эмоций пользователя и характера дыхания.

Он также «намного быстрее» и «на 50% дешевле», чем GPT-4 Turbo в API OpenAI.

Новый инструмент искусственного интеллекта, утверждает OpenAI, способен реагировать на аудиовходы всего за 2,3 секунды, со средним временем 3,2 секунды, что, по их словам, сопоставимо с временем реакции человека в обычном разговоре.


Понравилось? Поделитесь с друзьями!

Комментарии

- комментариев

Включить уведомления Да Спасибо, не надо