«Сбер» представил нейросеть для генерации изображений

Компания “Сбер” представила на конференции AI Journey 2023 последнюю итерацию своей генеративной модели искусственного интеллекта Kandinsky 3.0.

Как и предыдущие версии, Kandinsky 3.0 может создавать изображения и видеоролики на основе заданного текстового описания. В «Сбере» утверждают, что обновлённая нейросеть:

лучше понимает текстовый запрос пользователя;
генерирует более фотореалистичные изображения;
лучше знает элементы отечественного культурного кода, а потому лучше справляется с генерацией известных российских и советских личностей, персонажей, объектов культуры и искусства;
лучше справляется с дорисовкой и редактированием изображений (форматы inpainting и outpainting).

«Технологии искусственного интеллекта могут наделить человека супервозможностями. Kandinsky — один из инструментов, предоставляющих такие возможности. Это удобная, функциональная и бесплатная нейросеть Сбера для творчества. […] Пробуйте, творите, создавайте уникальные художественные произведения, которые могут стать подарком или украсят вашу коллекцию», — Александр Ведяхин, первый заместитель Председателя Правления «Сбербанка».

По словам Сбера, обновленная нейронная сеть была обучена с помощью обновленного набора данных, состоящего из 1,5 млрд. пар тестовых изображений. В результате были получены изображения размером до 1024×1024 пикселей, причем пользователь может выбрать желаемое соотношение сторон.

Kandinsky 3.0 создает короткие видеоролики длительностью четыре секунды и разрешением 640×640 пикселей с частотой 24 кадра в секунду. На создание каждой секунды видеоролика уходит около 20 секунд. Sber позволяет создавать различные виды анимации изображений, которые позволяют анимировать неподвижные изображения множеством способов, например, перемещать объекты, увеличивать и уменьшать масштаб.