Готовые модели в настоящий момент предоставляются по отдельному запросу образовательным учреждениям и независимым исследователям, но разработчики обещают открыть их для всех желающих после завершения тестирования и готовности первого релиза. Для обучения системы использовался кластер из 4000 GPU NVIDIA A100 Ezra-1 и коллекция LAION-5B, включающая 5.85 миллиардов изображений с текстовыми описаниями. Компоненты для генерации изображения отмечаются как достаточно легковесные для работы на пользовательских системах, например, для синтеза изображений с разрешением 512×512 достаточно наличия в системе GPU с 10GB видеопамяти.



Кроме синтеза изображений по текстовому описанию предлагается вариант для модификации изображений, который может с использованием уточняющих текстовых подсказок генерировать картины по схематичным наброскам, редактировать и изменять изображения или восстанавливать утраченные детали при увеличении масштаба. В разработке также находится вариант Stable Diffusion для редактирования видео на основе текстовых команд на естественном языке.


Источник: http://www.opennet.ru/opennews/art.shtml?num=57638