Whisperfile развивается командой Mozilla Ocho и дополняет собой проект llamafile, предназначенный для создания универсальных исполняемых файлов для запуска больших языковых моделей машинного обучения (LLM). По аналогии с llamafile проект whisperfile позволяет на основе файла с параметрами модели машинного обучения в формате GGUF сгенерировать исполняемый файл, который может запускаться в различных операционных системах на оборудовании с процессорами AMD64 и ARM64. Скомпилированный код может связываться со стандартной Си-библиотекой Cosmopolitan, дающей возможность создавать сборки приложений, запускаемые в Linux, FreeBSD, macOS, OpenBSD, NetBSD и Windows.
При запуске исполняемого файла в качестве входного параметра передаётся файл со звуком речи в формате wav, mp3, ogg или flac, а на выходе сохраняется распознанный текст. На практике проект может применяться для решения таких задач, как генерация текстовых титров для видео, создание лога голосовых и видео вызовов, преобразования записанных голосовых материалов в текст, организации голосового ввода. При помощи Whisperfile подобные задачи могут решаться на локальной системе без обращения к внешним сервисам.
Дополнительно поддерживается работа в роли HTTP-сервера, обрабатывающего запросы на распознавание речи через Web API. Для ускорения работы с моделью могут быть задействованы GPU и инструкции AVX. Инструментарий также может выводить коэффициенты достоверности, позволяющие раскрашивать распознанные слова в зависимости от точности их определения.
Использованная модель Whisper натренирована на 680 тысячах часов речевых данных, охватывающих разные тематические области и языки (2/3 данные на английском языке). Модель хорошо справляется с распознаванием речи с акцентом, определяет технический жаргон, поддерживает автоматическое определение языка и может работать при наличии фоновго шума. Для речи на английском языке система демонстрирует уровень надёжности и точности автоматического распознавания близкий к распознаванию человеком. Кроме транскрипции речи в текст, модель также может применяться для перевода речи на другой язык.
Источник: http://www.opennet.ru/opennews/art.shtml?num=61750