Данный материал является переводом оригинальной статьи, размещённой на сайте The Conversation.
Интерфейсы «мозг-компьютер» представляют собой революционную технологию, которая может помочь парализованным людям восстановить утраченные функции, такие как движение рукой. Эти устройства регистрируют сигналы мозга и расшифровывают намеренные действия пользователя, обходя повреждённые или деградированные нервы, которые обычно передают эти сигналы для управления мышцами.
С 2006 года демонстрации интерфейсов «мозг-компьютер» на людях в основном были сосредоточены на восстановлении движений рук и кистей, позволяя людям управлять курсорами компьютера или роботизированными руками. В последнее же время исследователи начали разрабатывать интерфейсы для восстановления речи, чтобы вернуть способность к общению людям, которые не могут говорить.
Когда пользователь пытается заговорить, эти интерфейсы записывают уникальные сигналы мозга, связанные с попытками мышечных движений, необходимых для речи, и затем переводят их в слова. Эти слова могут отображаться как текст на экране или воспроизводиться вслух с помощью программного обеспечения для преобразования текста в речь.
Я работаю научным сотрудником в Лаборатории нейропротезирования Калифорнийского университета в Дэвисе, которая участвует в клинических испытаниях BrainGate2. Недавно мы с коллегами продемонстрировали речевой интерфейс «мозг-компьютер», который расшифровывает попытку речи у пациента с БАС (боковым амиотрофическим склерозом), также известным как болезнь Лу Герига. Интерфейс преобразует нейронные сигналы в текст с точностью более 97%. Ключевым элементом нашей системы является набор моделей искусственного интеллекта (ИИ) — искусственные нейронные сети, которые помогают интерпретировать естественные.
Запись сигналов мозга
Первым шагом в нашем речевом интерфейсе «мозг-компьютер» является запись сигналов мозга. Существует несколько источников сигналов мозга, запись некоторых из которых требует хирургического вмешательства. Хирургически имплантированные записывающие устройства могут захватывать высококачественные сигналы мозга, поскольку они расположены ближе к нейронам, что приводит к более сильным сигналам с меньшими помехами. Эти устройства нейронной записи включают в себя сетки электродов, размещённых на поверхности мозга, или электроды, имплантированные непосредственно в ткань мозга.
В нашем исследовании мы использовали массивы электродов, хирургически помещённые в речевую моторную кору, часть мозга, которая контролирует мышцы, связанные с речью, участника Кейси Харрелла (Casey Harrell). Мы записали нейронную активность с 256 электродов, когда Харрелл пытался говорить.
Расшифровка сигналов мозга
Следующая задача — связать сложные сигналы мозга со словами, которые пытается сказать пользователь.
Один из подходов — сопоставить паттерны нейронной активности непосредственно с произнесёнными словами. Этот метод требует многократной записи сигналов мозга, соответствующих каждому слову, чтобы определить среднюю взаимосвязь между нейронной активностью и конкретными словами. И хотя эта стратегия хорошо работает для небольших словарей, как показало исследование 2021 года со словарём из 50 слов, она становится непрактичной для более крупных словарей. Представьте себе, что вы просите пользователя интерфейса «мозг-компьютер» попытаться произнести каждое слово из словаря несколько раз — это может занять месяцы, но для новых слов это всё равно не сработает.
Вместо этого мы используем альтернативную стратегию: сопоставляем сигналы мозга с фонемами — базовыми единицами звука, из которых состоят слова. В английском языке 39 фонем, включая ch, er, oo, pl и sh, которые можно комбинировать в любое слово. Мы можем измерить нейронную активность, связанную с каждой фонемой, несколько раз, просто попросив участника прочитать вслух несколько предложений. Точно сопоставляя нейронную активность с фонемами, мы можем собрать их в любое английское слово, даже если система не была специально обучена.
Чтобы сопоставить сигналы мозга с фонемами, мы используем передовые модели машинного обучения. Эти модели особенно хорошо подходят для этой задачи благодаря их способности находить закономерности в больших объёмах сложных данных, которые люди не могут различить. Думайте об этих моделях как о суперумных слушателях, которые могут выделить важную информацию из шумных сигналов мозга, подобно тому, как вы можете сосредоточиться на разговоре в переполненной комнате. Используя эти модели, мы смогли расшифровать последовательности фонем во время попытки речи с точностью более 90%.
От фонем к словам
Получив расшифрованные последовательности фонем, нам нужно преобразовать их в слова и предложения. Это сложная задача, особенно если расшифрованная последовательность фонем не совсем точна. Чтобы решить эту загадку, мы используем два взаимодополняющих типа языковых моделей машинного обучения.
Первый — это n-граммные языковые модели, которые предсказывают, какое слово с наибольшей вероятностью последует за набором из n слов. Мы обучили 5-граммную модель (модель с пятью словами) на миллионах предложений, чтобы предсказать вероятность слова на основе предыдущих четырёх слов, захватывая локальный контекст и общие фразы. Например, после «I am very good»/»Мне очень хорошо» модель может предложить «today»/»сегодня» как более вероятное слово, чем «potato»/»картофель». Используя эту модель, мы преобразуем наши последовательности фонем в 100 наиболее вероятных последовательностей слов, каждая с сопутствующей вероятностью.
Второй — это большие языковые модели, которые используются в чат-ботах с искусственным интеллектом, а также предсказывают, какие слова с наибольшей вероятностью последуют за другими. Мы используем большие языковые модели, чтобы уточнить свой выбор. Эти модели, обученные на огромном количестве разнообразного текста, имеют более широкое понимание языковой структуры и значения. Они помогают нам определить, какое из наших 100 предложений-кандидатов имеет наибольший смысл в более широком контексте.
Тщательно балансируя вероятности на основе n-граммной модели, большой языковой модели и наших первоначальных предсказаний фонем, мы можем сделать весьма обоснованное предположение о том, что пытается сказать пользователь интерфейса «мозг-компьютер». Этот многоэтапный процесс позволяет нам справляться с неопределённостями в декодировании фонем и создавать связные, контекстуально соответствующие предложения.
Реальные преимущества
На практике эта стратегия декодирования речи оказалась чрезвычайно успешной. Мы позволили Кейси Харреллу, мужчине с БАС, «говорить» с точностью более 97%, используя только свои мысли. Этот прорыв позволяет ему впервые за многие годы легко общаться со своей семьёй и друзьями, и всё это не выходя из собственного дома.
Речевые интерфейсы «мозг-компьютер» представляют собой значительный шаг вперёд в восстановлении коммуникации. Поскольку мы продолжаем совершенствовать эти устройства, они обещают дать голос тем, кто потерял способность говорить, воссоединить их со своими близкими и окружающим миром.
Тем не менее, остаются нерешённые задачи, такие как повышение доступности, портативности и долговечности технологии при длительном использовании. Несмотря на эти препятствия, интерфейсы мозг-компьютер для восстановления речи являются мощным примером того, как наука и технологии могут объединяться для решения сложных проблем и значительного улучшения жизни людей.