Ученые из США создали нейроинтерфейс, способный отслеживать активность центров речи в мозге пациентов и декодировать свыше 60 слов в минуту, что сопоставимо с темпом естественной речи, сообщила в среду пресс-служба Стэнфордского университета.
Ученые показали, что декодировать речь человека можно, отслеживая активность очень небольшого региона на поверхности коры головного мозга. Скорость синтезированной речи пациентки, которая участвовала в эксперименте, около 60 слов в минуту, при этом сопоставима с типичным показателем для здоровых людей, который составляет 160 слов в минуту.
За последние годы ученые создали десятки нейроинтерфейсов, трансформирующих активность мозга пациентов в устную или письменную речь. Самые успешные из подобных разработок позволяют инвалидам и немым людям общаться с окружающими при помощи систем синтеза речи, однако они не отличаются высокой скоростью работы и не позволяют передавать эмоции и интонации.
Авторы новой работы смогли втрое увеличить скорость работы нейроинтерфейсов, декодирующих речь, а также расширить их словарный запас до 125 тыс. слов, в рамках опытов с 68-летней пациенткой, которая потеряла способность говрить десять лет назад из-за бокового амиотрофического склероза. Эта болезнь приводит к постепенной потере контроля над мышцами, в том числе иногда и над голосовыми связками.
Нейрофизиологи заинтересовались тем, можно ли вернуть этой женщине способность говорить, если подключить электроды к центрам речи в ее мозге и разработать нейросетевой алгоритм, который бы постепенно учился сопоставлять пики активности мозга с конкретными звуками, которые пыталась произнести пациентка.
Ученые имплантировали два набора из 64 мини-электродов в мозг участницы эксперимента и на протяжении четырех месяцев записывали сигналы коры мозга, пока женщина читала короткие фразы и предложения. В общей сложности, исследователи получили группы сигналов, связанные со 125 тыс. слов.
На основе этих сигналов ученые обучили созданную ими систему машинного обучения анализировать возможный звуковой ряд и с помощью языковой модели ИИ определять слова, которые хотела произнести пациентка. Последующие наблюдения показали, что алгоритм мог декодировать и выводить на экран речь со скоростью 62 слова в секунду. При этом он совершал ошибки в 9-23% случаев, число ошибок возрастало вместе со словарным запасом системы.
Источник: nauka.tass.ru