Исследователи Google представили Lumiere, диффузионную модель для преобразования текста в видео.
Lumiere создает фотореалистичные результаты, используя уникальную архитектуру под названием Space-Time U-Net. Модель генерирует видео за один процесс, а не кадр за кадром.
«Такой подход контрастирует с существующими моделями text-to-video, которые синтезируют отдельные ключевые фрагменты с последующим увеличением кадровой частоты — такой механизм по своей сути превращает согласованность кадров между собой в труднодостижимую задачу», — говорится в описании Lumiere.
Lumiere был обучен на 30 миллионах пар видео + текстовое описание. В базовом случае Lumiere генерирует 80 кадров со скоростью 16 кадров в секунду (время – 5 секунд).
Lumiere может конвертировать неподвижные изображения в видео, создавать видеоклипы в определенном стиле на основе эталонного изображения, изменять стиль объектов в видеоряде и добавлять недостающие части кадров. Программа также работает в режиме “текст в видео”.