Для культурной адаптации моделей искусственного интеллекта коллектив российских ученых составил методику сбора и обработки пар «текст — изображение». Применение методики позволило обучить модель Kandinsky 3.1 генерации изображений с учетом культурных особенностей народов нашей страны. Результаты работы опубликованы в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».
Создание изображений — занятие творческое, требующее от исполнителя особых навыков. Появление интеллектуальных агентов на базе машинного обучения в конце 2010-х годов позволило делегировать задачи такого типа им: так появились модели генерации изображений по их описаниям, например DALL-E, Midjourney или Stable Diffusion. Однако проблема качественного иллюстрирования не исчезла. Ее наличие обусловлено в том числе трудностями перевода (популярные модели сегодня обучаются на корпусе текстов, значительную долю которого составляют англоязычные источники). Поэтому, если пользователь обращается к искусственному агенту на другом языке, ответные картинки могут не соответствовать запросу пользователя.

Генерация по промптам: «Буратино, кадр из мультфильма» (слева) и «Винни-Пух, кадр из мультфильма»
Источник: журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»
Для усовершенствования генеративных моделей коллектив российских ученых составил методику обработки пар данных «текст — изображение», ориентированных на русскоязычный сегмент аудитории.
Ученые выбрали 17 направлений, наиболее значимых, по их мнению, для обучения моделей созданию изображений. Большое внимание уделили особенностям русского языка и литературы, в первую очередь крылатым выражениям и пословицам. Помимо этого были изучены традиции и ассоциирующиеся с ними зрительные образы типа «блины и самовар — атрибут Масленицы», «Чебурашка — герой сказочной повести Эдуарда Успенского».

Категории для создания набора данных.
Источник: журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»
Чтобы реализовать методику, ученые вручную обработали около 8 тысяч текстов и иллюстраций к ним из открытых источников в интернете. В процессе обработки и фильтрации были признаны неудовлетворительными и отброшены рисунки, дающие искаженное представление об объекте либо имеющие низкое качество и водяные знаки. Тексты тоже пытались редактировать: удаляли из них многозначные слова и речевые штампы, добавляли имена собственные: названия произведений, имена персонажей. Однако написание нового текста занимало в среднем 4,52 мин, тогда как корректура существующего — 5,23 мин, поэтому ученые решили сами излагать сведения об объектах в 2–10 предложениях и переводить их на английский язык. Для устранения ошибок тексты были многократно вычитаны разными лицами.
В итоге удалось собрать около 200 тысяч пар текст—изображение, несущих отпечаток визуальной составляющей культуры. Данные были использованы в двухэтапном процессе дообучения модели Kandinsky 3.1. Общее число шагов оптимизатора на 416 графических процессорах составило 500 тысяч.
«Одно из основных преимуществ нашей модели над мировыми аналогами заключается в наличии данных о русской культуре,— поясняет Вячеслав Васильев, аспирант кафедры дискретной математики МФТИ.— Благодаря этому модель демонстрирует лучшие результаты при решении практических задач, ориентированных на специфику нашей информационной среды».
С целью проверки информационного наполнения модели Kandinsky 3.1 до и после обучения исследователи по описанию сгенерировали внешний вид нескольких объектов: героев русских сказок и мультфильмов, исторических зданий, блюд национальной кухни. Кроме того, разработчики поставили сравнительный эксперимент и задействовали в нем еще пять моделей.

Изображения, сгенерированные шестью моделями по их описаниям: «Иванушка-дурачок в кафтане и красной шапке летит по небу на маленькой серой лошади, ретро-иллюстрация, книга сказок» (первая строка), «вид Большого театра в Москве, лето, люди» (вторая строка), «пельмени» (третья строка)
Источник: журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»

Генерация изображения по тексту «Крокодил Гена и Чебурашка, советский мультфильм» моделью Kandinsky 3.1 до и после дообучения.
Источник: журнал «Доклады Российской академии наук. Математика, информатика, процессы управления»
«Так как общепринятых правил и формул для определения культурной адаптации генеративных моделей пока не существует, мы разработали собственную методику оценки,— говорит Вячеслав Васильев.— Для этого привлекли людей, и каждому было предложено, руководствуясь рядом критериев, определить лучшее, на его взгляд, изображение, но при этом не зная, какой моделью оно сгенерировано».
Участникам опроса требовалось охарактериёзовать рисунки по двум параметрам: соответствие тексту и визуальное качество. Большинство отдали предпочтение рисункам, полученным с помощью модели Kandinsky 3.1. Единственным достойным ее конкурентом назвали DALLE 3. Предыдущая версия Kandinsky 2.2, а также три другие модели: Midjourney 5.2, SDXL и YaART — уступили лидерство.
В дальнейшем ученые планируют обучить модель генерации видео.
Научная статья: Васильев В. А., Архипкин В. С., Агафонова Ю. Д., Никулина Т. В., Миронова Э. О., Шичанина А. А., Герасименко Н. А., Шойтов М. А., Димитров Д. В. Русско-ориентированная культурная адаптация набора данных для специализированной генерации изображений по текстовым описаниям. // Доклады Российской академии наук. Математика, информатика, процессы управления. 2024. Т. 520, №2. С. 154–168. DOI: 10.1134/S1064562424602324