Для загрузки доступно два варианта модели: SVD (Stable Video Diffusion) для генерации 14 кадров с разрешением 576×1024 на основе заданного статического изображения и SVD-XT для генерации 25 кадров. Возможна генерация видео без движения или с очень медленным поворотом камеры, продолжительностью не более 4 секунд. Прямое управление моделью на основе текстового описания на естественном языке пока не поддерживается, но можно вначале подготовить исходное изображение при помощи старой модели Stable Diffusion 2.1, а затем преобразовать его в видео, используя модель SVD.
Качество видео пока не обеспечивает идеального фотореализма и гарантированно правильной отрисовки лиц и людей. По производительности предложенная открытая модель опережает проприетарные аналоги от компаний Runway и Pika Labs. Модель может легко адаптироваться для решения различных задач, например, может применяться для формирования объёмных фигур.
Дополнительно можно отметить публикацию инструментария машинного обучения Video-LLaVA, позволяющего создавать единое визуальное представление объекта, формируемое на основе использования при обучении одновременно фотографий и видеозаписей объектов. Система может применяться, например, для распознания наличия одних и тех же объектов на изображениях и видео. Код написан на Python и распространяется под лицензией Apache 2.0.
Источник: http://www.opennet.ru/opennews/art.shtml?num=60165