Наушники с шумоподавлением в наши дни весьма широко распространены, но учёные нашли способ вывести эти устройства на новый уровень — создав наушники, которые могут фокусироваться на одном внешнем звуковом источнике и блокировать все остальные шумы.
Технология, называемая «Target Speech Hearing» («Целевое речевое восприятие»), использует искусственный интеллект (ИИ), чтобы пользователь мог повернуться к рядом стоящему говорящему человеку и — после задержки в пару секунд — настроиться на его голос. Это позволяет пользователю слышать только этот конкретный источник звука, сохраняя сигнал даже если говорящий перемещается или отворачивается.
Технология включает небольшой компьютер, который может быть встроен в пару коммерческих наушников, используя сигналы от встроенного микрофона наушников для выбора и идентификации голоса говорящего. Учёные изложили подробности в статье, опубликованной 11 мая в журнале «Proceedings of the CHI Conference on Human Factors in Computing Systems».
Учёные надеются, что технология может быть использована в качестве помощи для людей с нарушениями слуха, и они работают над тем, чтобы встроить систему в коммерческие наушники и слуховые аппараты.
«Мы склонны воспринимать ИИ как веб-чатботов, которые отвечают на вопросы, — сказал в заявлении Шьям Голлакота (Shyam Gollakota), ведущий автор исследования и профессор компьютерных наук и инженерии в Университете Вашингтона. — В этом проекте мы разрабатываем ИИ, чтобы модифицировать слуховое восприятие любого человека, носящего наушники, в зависимости от его предпочтений. С нашими устройствами вы теперь можете чётко слышать одного говорящего, даже если вы находитесь в шумной среде с множеством других людей», — объяснил Голлакота.
Технология «Target Speech Hearing» (TSH) является продолжением исследования тех же учёных в области «семантического слуха», проведённого в прошлом году. В том проекте они создали приложение для смартфонов с поддержкой ИИ, которое можно было использовать вместе с наушниками. Оно позволяло пользователю выбирать из списка предустановленных «классов» звуков, которые он хотел бы слышать, блокируя все остальные шумы. Например, пользователь мог выбрать, чтобы слышать сирены, младенцев, речь или птиц — и наушники выделяли бы только эти звуки, блокируя все остальные.
Чтобы использовать TSH, пользователь должен повернуться лицом к говорящему, чей голос он хочет услышать, а затем нажать небольшую кнопку на наушниках, чтобы активировать систему, когда он находится в правильном положении.
Когда голос говорящего достигает микрофона, программное обеспечение машинного обучения «регистрирует» аудиоисточник. Оно допускает небольшую погрешность — на случай, если слушатель не стоит прямо перпендикулярно к говорящему — прежде чем идентифицировать целевой голос и зарегистрировать вокальные паттерны. Это позволяет системе фиксироваться на говорящем независимо от громкости или направления, в котором он находится.
Когда говорящий продолжает говорить, это улучшает способность системы концентрироваться на звуке, поскольку алгоритм лучше определяет уникальные закономерности целевого звука с течением времени.
На данный момент TSH может зарегистрировать только один источник звука, или одного говорящего, в любой момент времени, и это менее эффективно, если есть другой шум аналогичной громкости, исходящий с того же направления.
В идеальном мире учёные предоставили бы системе «чистый» аудиообразец для идентификации и регистрации, без какого-либо другого шума окружающей среды, который мог бы помешать процессу, говорится в статье. Но это не будет хорошо сочетаться с созданием практического устройства, поскольку получение чистого звука в реальных условиях является сложной задачей.