Система машинного обучения Stable Diffusion адаптирована для синтеза музыки
Проектом Riffusion развивается вариант системы машинного обучения Stable Diffusion, адаптированный для генерации музыки вместо изображений. Музыка может синтезироваться текстового описания на естественном языке или на основе предложенного шаблона. Компоненты для синтеза музыки написаны на языке Python с использованием фреймворка PyTorch и доступны под лицензией MIT. Обвязка с интерфейсом реализована на языке TypeScript и также распространяется под лицензией MIT. Натренированные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях. Проект интересен тем, что продолжает использовать для генерации музыки модели «из текста в изображение» и «из изображения в изображение», но в качестве изображений манипулирует спектрограммами. Иными словами, классический … Читать далее Система машинного обучения Stable Diffusion адаптирована для синтеза музыки