Кроме того, компания Mozilla призвала пользователей и разработчиков принять участие в тестировании модели машинного обучения distilvit, развиваемой для автоматической генерации текстовых описаний изображений. Начиная с Firefox 130 данная модель используется в PDF-просмотрщике для озвучивания содержимого через экранный ридер для людей, имеющих проблемы со зрением. Пользователям предлагается принять участие в рецензировании генерируемых описаний для снижения уровня ошибок при обработке сложных изображений.
Модель для генерации текстовых описаний distilvit занимает 180 МБ на диске, охватывает 182M параметров и использует модель VIT (Vision Transformer) для анализа изображений и модель DistilGPT2 для генерации текста. Данные на которые обучена модель [[https://huggingface.co/datasets/Mozilla/опубликованы]] в открытом доступе. Условия распространения модели соответствуют недавно утверждённым организацией OSI требованиям к отрытым моделям. Связанный с проектом код распространяется под лицензией Apache 2.0.
Источник: http://www.opennet.ru/opennews/art.shtml?num=62176