Библиотека для распознавания русской речи на Android и Linux без сети

Опубликована версия 0.3 библиотеки vosk для локального распознавания слитной речи, поддерживающая русский язык. Для платформы Android подготовлен APK-пакет, а для Linux можно использовать Python-библиотеку (пример использования), производительности которой достаточно для работы на платах Raspberry Pi. Языковая модель занимает всего 50Мб и работает точнее DeepSpeech (модель размером более 1Гб). Поддерживаются языки: русский, английский, немецкий, французский, китайский. Ожидается поддержка испанского, хинди, арабского и португальского.

Предложенная библиотека работает на доработанном движке Kaldi. Разработчиками параллельно развивается серверное приложение для тренировки моделей, основанное на технологии аудио индексации, позволяющей в полуавтоматическом режиме проводить обучение нейронной сети на больших объёмах данных. Основная идея — это применение метода цифровых отпечатков к изучению звуковых сигналов. Применяемый подход позволяет добиться быстрой тренировки на 100 000 часах речевых данных, допускает корректировку поведения распознавателя с помощью добавления новых сэмплов, демонстрирует хорошую устойчивость к шуму и даёт возможность распараллелить тренировку на тысячу узлов.

Источник: http://www.opennet.ru/opennews/art.shtml?num=52171