Представлена система синтеза изображений Stable Diffusion 2.0

Компания Stability AI опубликовала вторую редакцию системы машинного обучения Stable Diffusion, способной синтезировать и изменять изображения на основе предложенного шаблона или текстового описания на естественном языке. Код инструментов для обучения нейронной сети и генерации изображений написан на языке Python с использованием фреймворка PyTorch и опубликован под лицензией MIT. Уже обученные модели открыты под пермиссивной лицензией Creative ML OpenRAIL-M, допускающей использование в коммерческих целях. Дополнительно доступен демонстрационный online-генератор изображений.

Ключевые улучшения в новой редакции Stable Diffusion:

  • Создана новая модель синтеза изображений по текстовому описанию — SD2.0-v, поддерживающая генерацию изображений с разрешением 768×768. Новая модель обучена с исопользованием коллекции LAION-5B, включающей 5.85 миллиардов изображений с текстовыми описаниями. Модель использует тот же набор параметров как и у модели Stable Diffusion 1.5, но отличается переходом на использование принципиально иного кодировщика OpenCLIP-ViT/H, позволившего существенно повысить качество результирующих изображений.

  • Подготовлен упрощённый вариант SD2.0-base, обученный на изображениях 256×256 с использованием классической модели предсказания шумов и поддерживающий генерацию изображений с разрешением 512×512.

  • Предоставлена возможность использования технологии суперсэмплинга (Super Resolution) для увеличения разрешения исходного изображения без снижения качества, используя алгоритмы пространственного масштабирования и реконструкции деталей. Предоставленная модель обработки изображений (SD20-upscaler) поддерживает четырёхкратное увеличение масштаба, что позволяет формировать изображения с разрешением 2048×2048.

  • Предложена модель SD2.0-depth2img, учитывающая глубину и пространственное расположение объектов. Для монокулярной оценки глубины используется система MiDaS. Модель позволяет синтезировать новые изображения, используя другое изображение в качестве шаблона, которые могут радикально отличаться от оригинала, но
    сохранять общую композицию и глубину. Например, можно использовать позу человека на фотографии для формирования другого персонажа в той же позе.


  • Обновлена модель для модификации изображений — SD 2.0-inpainting, позволяющая при помощи текстовых подсказок заменять и изменять части изображения.

  • Проведена оптимизация моделей для использования на обычных системах с одним GPU.

Источник: http://www.opennet.ru/opennews/art.shtml?num=58184