play-rounded-fill
Новости

Очки с ИИ научили «читать по губам» без использования камеры

Инженеры создали систему распознавания речи на основе мимических движений, которая работает как минисонар (эхолокатор). Разработка будет представлена на международной конференции CHI в Германии.

Исследователи из Корнельского университета разработали интерфейс EchoSpeech для распознавания тихой речи, который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 невокализованной команды на основе движений губ и рта. Обработка информации осуществляется локально на смартфоне, что обеспечивает конфиденциальность данных.

Очки EchoSpeech оснащены парой микрофонов и динамиков, размер которых меньше ластика на конце карандаша, и не используют камеру. Устройство отправляет и улавливает акустические волны, которые показывают изменения динамики лицевых мышц и рта. Алгоритм глубокого обучения анализирует эти эхо-профили в режиме реального времени с точностью около 95%.

Полученные данные передаются через Bluetooth в режиме реального времени на смартфон, обрабатываются и хранятся локально на устройстве. Разработчики сообщают, что EchoSpeech достаточно нескольких минут для обучения для конкретного пользователя.

Для людей, которые не могут говорить, эта технология безмолвной речи может стать отличным голосовым синтезатором. Она может вернуть пациентам их голос.

Источник: hightech.fm