Два года назад Сбер презентовал собственную нейросеть Kandinsky для генерации изображений по текстовому описанию на русском языке. Её разработала объединённая команда исследователей и инженеров из Sber AI и SberDevices, которым помогли учёные из Института AIRI.
Kandinsky стал продолжением нейросети ruDALL-E, представленной 2 ноября 2021 года. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбер дообучил эту модель на 200 миллионов качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
Сейчас линейка Kandinsky представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky 3.0 и 3.1. Также специалисты уже запустили семейство моделей Kandinsky Video (1.0 и 1.1) для генерации полноценных видео по тексту.
При отправке промптов Kandinsky распознаёт отечественный культурный код — например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту Kandinsky может редактировать изображения (дорисовывать, исправлять), смешивать разные картинки, рисовать в определённой стилистике и даже заменять объекты.
Всего за четыре дня после релиза Kandinsky 2.1 4 апреля 2023 года аудитория нейросети превысила 1 миллион уникальных пользователей. Кроме того, в 2023 году модель Kandinsky 2.2 заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии AI-ресурса Hugging Face, где собраны лучшие open source решения. Также Kandinsky стала одной из самых упоминаемых в социальных медиа российских нейросетей в 2023-2024 годах согласно исследованию Brand Analytics.
С помощью нейросети Kandinsky 3.0 удалось восстановить образы утраченных картин известных русских художников (совместный с музеями Воронежа и Волгограда проект «Возрождённая коллекция»). Муралы, созданные с участием Kandinsky 2.2, украсили девять школ в Волгограде по проекту «Уроки истории». В феврале 2024 года Императорский фарфоровый завод выпустил коллекцию кружек с рисунками от нейросети Сбера.