YandexART 1.3: нейросеть лучше понимает запросы и создаёт более реалистичные картинки

Команда Яндекса представила обновлённую версию Yandex AI Rendering Technology (YandexART) — диффузионной нейросети, способной генерировать изображения и анимации на основе текстовых запросов пользователей.

YandexART 1.3 перешла на новую технологию для генерации изображений — латентную диффузию. Также датасет, на котором обучалась модель, был увеличен в 2,5 раза, что улучшило качество создаваемых изображений. Теперь нейросеть лучше понимает текстовые запросы и создаёт более реалистичные изображения в разных форматах, включая 16:9, 4:3 и 3:4.

Согласно информации от пресс-службы, латентная диффузия, применяемая в новой версии YandexART, требует меньшего количества вычислительных ресурсов и позволяет создавать более реалистичные изображения. Этот метод включает формирование промежуточного представления изображения в виде латентного кода, который является компактным описанием, содержащим ключевую информацию об изображении в сжатом виде.

Далее, всего за один шаг, нейросеть преобразует этот код в полноценное изображение высокого качества. Данный подход оказывается более действенным, нежели поэтапное уточнение изображения в каскадной диффузии.