Как работают нейросети, рисующие картинки, и кто из них лучше понимает по-русски. Тест
Соцсети и новостные сайты полнятся сообщениями об очередных результатах творчества нейросетей. Последних существует уже много, и некоторые из них действительно научились нас удивлять креативностью подхода и умением рисовать не хуже некоторых художников. Протестировать большинство из них можно бесплатно, а результат может оказаться не только прикольным, но и полезным. В России тоже уже работает несколько генераторов картинок, в том числе недавно обновлённая нейросеть Kandinsky 2.1. Выдерживают ли они конкуренцию с западными аналогами и легко ли спровоцировать искусственный интеллект на ошибку? «Секрет» разобрался.
Как пользоваться нейросетью «Кандинский 2.1» (Kandinsky 2.1) от Сбера и что она умеет
- Поддерживает русский язык: очень хорошо
- Бесплатная версия: есть
- Доступно ли в России: да
Kandinsky 2.1 — это усовершенствованная версия прошлой нейросети из серии Kandinsky от Сбера. В новую версию разработчики загрузили дополнительные 170 млн сочетаний текста и изображения, чтобы усовершенствовать ИИ.
Kandinsky 2.1 умеет не только превращать слова в рисунок (базовый навык большинства нейросеток подобного типа). Она может дорисовать загруженные в неё фото, может перерисовать готовое изображение в другом стиле, а может и создать микс — скрестить две совершенно разные картинки. Kandinsky 2.1 знает много стилей, может имитировать стилистику разных художников и даже моделировать 3D-объекты.
Нейросеть понимает более 100 разных языков. Обучали её программисты из проекта Sber AI и Института искусственного интеллекта AIRI.
Где попробовать нейросеть Kandinsky 2.1
Kandinsky 2.1 может протестировать любой желающий, при этом совершенно бесплатно:
- на сайте Сбера;
- в приложении «Салют» (с помощью навыка «Включи художника»);
- на платформах Fusionbrain и Sbercloud;
- и даже в специальном боте.
Kandinsky 2.1: как пользоваться. Инструкция
Основное преимущество нейросети Kandinsky 2.1 — очень простой интерфейс. Достаточно зайти к ней на страницу или в чат-бот и ввести в специальную графу или окно набора текст. Дальше нажимаем клавишу «Нарисовать» — и изображение готово.
Мы воспользовались доступом к нейросети Kandinsky 2.1 через платформу Fusionbrain. На экране видим чёрный квадрат. Под ним отдельная графа, куда можно вписать текстовое описание, какой рисунок мы хотим получить.
По бокам есть иконки разных инструментов. Через одну из них с изображением дискеты можно загрузить фотографии, если мы хотим, чтобы нейросеть совместила их. В левом нижнем углу можно выбрать стиль, в каком будет нарисована фотография. Нейросеть умеет рисовать в стиле иконописи, киберпанка, классицизма, аниме и т. д.
У бота интерфейс максимально интуитивен. Для начала его нужно запустить, потом нажать «Меню» и выбрать интересующую нас функцию.
Вначале мы делаем самый простой запрос, просим нейросеть нарисовать лошадь.
Получаем такое довольно изящное изображение.
Дальше попытаемся усложнить запрос: «незнакомец в шляпе».
Перед нами довольно мрачная картинка.
Теперь даём ещё более сложное для машины задание. Вводим текст: «На улице Москвы появились странные люди». Вариантов исполнения здесь масса. Kandinsky 2.1 выдаёт следующий рисунок.
Понять, что город на картинке — это Москва, крайне сложно. Возможно, компьютер хотел изобразить на заднем фоне башню Кремля, но реалистично это сделать не удалось. А вот «странных людей» нейросеть изобразила хорошо, их хочется разглядывать.
Дальше я решил загрузить готовую картинку с Бэтменом, найденную на просторах Сети. И попросил нейросеть доработать её. Для этого ввёл текстовый запрос: «Бэтмен летит на фоне Москвы». Вот что получилось.
Опять же трудно разобрать, что за город на рисунке — скорее всего, это просто общий для многих городов индустриальный пейзаж.
Ну и наконец, в конце я решил попробовать переиграть нейросеть, дав ей абсурдные запросы.
Ввожу в текстовое поле:
«Чёрный котик с тапком прыгает на паровоз».
Нейросеть отключается секунд на 30, думая, что она хочет изобразить. И выдаёт следующий рисунок.
Кажется, получилось, однако с нейросеткой возникло недопонимание — вместо обычного кота изображён усатый морской котик. Вместо тапка в зубах, что в первую очередь мог бы подумать человек, котик оказался обут в эти тапки.
Пробую ещё раз. Делаю такой запрос: «Ехал Грека через реку. Видит Грека в реке рак».
И снова изображение невпопад. Да, на нём есть какая-то река, есть человек, но на этом совпадения заканчиваются. Никаких раков в реке нет, как, впрочем, нет и никакой попытки изобразить движение, предполагаемое фразой.
Как пользоваться нейросетью Midjourney и что она умеет
- Поддерживает русский язык: да
- Бесплатная версия: отключена, как утверждают в компании, «временно»
- Доступно ли в России: да, но могут быть трудности с оплатой
Американской компании из Сан-Франциско Midjourney всего около двух лет. Но за этот небольшой срок она смогла удивить мир, выпустив довольно совершенную в сравнении с аналогами свою нейросеть. Она в отличие от других подобных проектов генерирует изображения в очень хорошем качестве и со множеством деталей.
Midjourney официально доступна в мессенджере Discord и умеет делать всё то же, что и Kandinsky 2.1, и даже больше. Midjourney тоже знает множество стилей рисования: она может сделать картинки в стиле минимализма, анимации, в стиле ретро, комиксов и компьютерных игр.
Основатель Midjourney, выходец из Института Макса Планка Дэвид Хольц, утверждает, что его детище не собирается заменить живых иллюстраторов и художников.
«Она должна просто сделать людей более творческими. <…> Художники, пользующиеся нашей нейросетью (а это, возможно, 30–50% наших пользователей), говорят, что Midjourney помогает им придумать гораздо больше новых идей за короткий промежуток времени», — отмечает Хольц. Таким образом, нейросеть просто помогает художникам как можно быстрее прийти к какой-то идее.
На самом деле Хольц здесь немного лукавит. Ряд компаний уже начали использовать Midjourney как второго дизайнера. Например, некоторые контент-агентства пользуются помощью нейросети в ходе мозговых штурмов или для того, чтобы дорисовать изображения штатных дизайнеров.
А в июне 2022 года журнал The Economist поместил на обложку изображение, созданное Midjourney.
Главный минус Midjourney — она недавно закрыла свою бесплатную версию. Официально — из-за большого наплыва людей, желающих протестировать нейросеть. Однако поговаривают, что на самом деле из-за обилия политических фейков. Например, в соцсетях широко разошлись фотографии, сгенерированные Midjourney, с папой римским в дорогом белом пуховике или Дональдом Трампом в окружении полицейских, нещадно заламывающих политику руки.
Платная подписка Midjourney стоит $10 в месяц, за эти деньги можно создать 200 картинок. За $30 в месяц можно получить безлимит и генерировать столько картинок, сколько вы хотите.
Где попробовать нейросеть Midjourney
- подключить бот нейросети Midjourney в Discord (помним, что пользоваться нейросеткой теперь можно только платно);
- через неофициального Telegram-бота.
Midjourney: как пользоваться. Инструкция
Если вы всё же решили попробовать воспользоваться платной версией и у вас есть карточки иностранных банков, чтобы сделать перевод, то надо приготовиться — это будет непросто. Интерфейс на странице Discord не самый простой, разобраться, как работает программа и прикрученный к ней бот нейросети, это то же самое, что пройти полноценный квест.
Итак, вначале регистрируемся на сервисе Discord.
После этого заходим на страничку нейросети и нажимаем кнопку Sign In
. Вас перебрасывает на сам Discord. Возможно, вы сразу попадёте в комнату Midjourney.
Если нет, то надо найти это сообщество по поиску и отправить запрос на вступление. После этого вы станете его участником и сможете пользоваться сервисом.
Теперь переходим к тестированию Midjourney. Выбираем один из каналов newsbees-25
, newbees-27
и любые другие с подобными названиями. Перейдя в них, вы окажетесь в общем чате, куда загружаются сгенерированные другими людьми картинки.
Нажимаем в чате в строку для ввода команду: /settings
. Перед вами появляются настройки. Вся панель сделана очень неудобно — настройки на английском языке, при этом они постоянно сползают куда-то вне зоны видимости, а на их месте появляются всё новые и новые сгенерированные изображения.
Всего на панели настроек пять строк.
В первой — версии движка Midjourney. Во второй — качество фотографий. В третьей — стиль фото. Чем выше значение, тем более необычное фото можно получить. В четвёртой строке можно выбрать масштаб картинки, а в пятой — режим, в котором будут опубликованы сгенерированные картинки. Например, можно выбрать Public mode
— все созданные картинки будут в открытом доступе.
Итак, выбираю предпоследнюю версию движка — Mj version 4
, так как она стоит по умолчанию. Затем выбираю базовое качество фотографий — Base quality
. Выбираю средний стиль фотографий — Style med
. А в последней строке — Public mode
.
Теперь мы готовы к тому, чтобы сгенерировать первую картинку. Забиваем в чат команду imagine. Рядом появится отдельная графа со словом Promt. Туда можно ввести любое слово, всё равно какое.
Как мы уже упоминали, картинки также можно сгенерировать бесплатно через неофициального Telegram-бота. Там алгоритм гораздо проще, достаточно просто ввести в чат голосовые команды.
Например, вот такое изображение удалось получить от Midjourney free bot по запросу «шляпа»:
Сразу четыре варианта.
Минус — эти боты генерируют в день по одной подборке изображений. Если вы хотите получить от них больше, надо платить.
Как пользоваться нейросетью «Шедеврум» от «Яндекса» и что она умеет
- Поддерживает русский язык: очень хорошо
- Бесплатная версия: да
- Доступно ли в России: да
В начале апреля 2023 года мир решил удивить и «Яндекс». Он выпустил бета-версию нейросети под названием «Шедеврум».
Где попробовать нейросеть «Шедеврум»
Нейросеть доступна в виде приложения: скачать «Шедеврум» можно в мобильных маркетплейсах.
«Шедеврум»: как пользоваться
Пока это приложение понимает только два языка — русский и английский. Так же, как и Kandinsky 2.1 и Midjourney, приложение умеет подражать известным художникам. Нейросеть знает стиль Ван Гога и Пикассо, стиль игры Minecraft, может делать просто реалистичные фотографии, а может создавать и пиксельные модели.
Разработчики Яндекса обучили свою нейросеть на 240 млн примерах — это были картинки с текстовыми описаниями. Сейчас нейросеть продолжает обучение, ей предстоит ещё изучить 500 млн примеров.
Чтобы протестировать шедевры от «Яндекса» надо войти в скачанное приложение и авторизоваться там через электронную почту. Этот процесс может затянуться, так как желающих много.
Если это удалось сделать, дальше всё будет достаточно просто. В приложении в правом верхнем углу нажимаем иконку с плюсиком. После этого открывается отдельное окно, куда можно вводить текст.
Вводим запрос: «Кот прыгает на шкаф».
Приложение думает секунд тридцать и генерирует следующую картинку.
Теперь делаем запрос: «Неопознанный объект в небе»
С простыми запросами нейросеть справляется хорошо, картинки достаточно точно отражают все возможные ассоциации, связанные с введенным текстом.
Дальше усложняем задачу для машины: «Танцующий барбос в костюме».
Нейросеть думает гораздо дольше, чем при предыдущих запросах. И выдает почему-то такое странное изображение.
Не очень точный результат. Хотя «Шедеврум» ещё проходит обучение, поэтому в будущем она, возможно, научится точнее отвечать на такие запросы.
Нейросеть Crayon (бывшее Dall-e Mini): как с ней работать
- Поддерживает русский язык: нет
- Бесплатная версия: есть
- Доступно ли в России: да, но воспользоваться получится не всегда, так как сервисы программы часто перегружены
Нейросеть Crayon (раньше она называлась Dall-e Mini, но потом разработчики сменили её название) создана при финансовой поддержке Microsoft.
Создатели этой нейросети — программисты из компании Open AI, один из основателей которой Илон Маск. Первая версия нейросети была представлена ещё в 2021 году. Она называлась Dall E.
Crayon стала одной из версий этой оригинальной нейросети.
Нейросеть знает 30 языков, в том числе русский. Одновременно она выдаёт девять изображений. Недостаток — в бесплатной версии нельзя выбрать стиль, в котором робот нарисует картинку. Также минус и то, что нейросеть думает над рисунком дольше других аналогов — не менее 1 минуты.
Где попробовать нейросеть Crayon
- Попробовать нейросеть можно на её официальном сайте.
Интерфейс там максимально простой. Есть графа для текстового ввода.
Вначале смотрим, как нейросеть генерирует картинки на английском языке. Вводим фразу: Cat walking the street.
Получилось достаточно реалистично.
А вот русский язык нейросеть знает пока очень плохо. Вот такие картинки она выдала на максимально простой запрос: «Крокодил».
Нейросеть Dream by Wombo: как с ней работать
- Поддерживает русский язык: да, но не очень хорошо, корректно делает рисунки только после простых запросов
- Бесплатная версия: есть
- Доступно ли в России: да
Ещё одна интересная нейросеть — Dream by Wombo. Она появилась в конце 2021 года. Разработчик проекта — независимая канадская студия Wombo. Данная студия занимается разработкой проектов в области искусственного интеллекта. Одним из них как раз и стала нейросеть.
Нейросеть знает четыре стиля — юмористический, реалистический, художественный и так называемый «аналоговый стиль». Последний стиль имитирует съёмки на аналоговую, т. е. плёночную камеру.
Где попробовать нейросеть Dream by Wombo
- Протестировать нейросеть можно, скачав её в Google Play и App Store или на официальном сайте.
Интерфейс у приложения также очень простой. В середине сайта расположена командная строка. Вбиваем туда текстовые запросы.
На выходе нейросеть генерирует несколько изображений, но большинство из них закрыты. Чтобы их открыть, надо купить платную версию. Бесплатно же можно посмотреть только одну фотографию.
Пробуем. Вбиваем на английском фразу: Spiderman eat apple
Получаем вот такую картинку.
Нейросеть понимает и русский язык. Правда, не очень хорошо. Вот такую картинку она сгенерировала на запрос: «Осьминог преследует кота».
Если же ей дать более простые описания: «Человек в метро», результат уже лучше:
Нейросеть Lexica.art
Поддерживает русский язык: да, но плохо, отвечает на запросы некорректно Бесплатная версия: есть Доступно ли в России: да
Ещё одна подобная нейросеть — Lexica.art. Она была представлена совсем недавно — в 2022 году. Её создал разработчик из Сан-Франциско Шариф Шамим.
Минус нейросети — она не позволяет выбрать стиль рисунка.
Протестировать этот искусственный интеллект можно на официальном сайте проекта.
Вначале на сайте надо зарегистрироваться, нажав клавишу Get started. После этого надо ввести свой email, куда придёт затем ссылка, по которой надо будет перейти.
После этого можно начать пользоваться приложением. Работает нейросеть только с простыми запросами, чем сложнее фраза, которую вы вбиваете, тем меньше шансов получить адекватную картинку.
Вбиваем в командную строку фразу: Green man go across Arbat. Нейросеть думала около 40 секунд. И выдала целых четыре фотографии, вот несколько из них:
Удивительно, но все рисунки оказались достаточно точные. В изображенной улице действительно узнаётся московский Арбат.
Теперь пробуем дать нейросети запрос на русском: «Юрий Гагарин приехал в Кремль».
Русский язык калифорнийский проект, очевидно, поддерживает плохо. Да, на некоторых из этих картинок есть попытка изобразить луну и какую-то башню, но ни Гагарина, ни Кремля на этой фотографии нет.
Нейросеть Stable Diffusion Online: особенности применения
Поддерживает русский язык: да, но совсем плохо, чаще всего некорректно отвечает на запросы, введённые на русском Бесплатная версия: есть Доступно ли в России: да
И наконец, последняя из рассмотренных нейросетей — Stable Diffusion Online. Её разработала в 2022 году компания Stability A.
Stable Diffusion Online обучалась на более чем 5 млрд изображений из интернета.
Всего, как уверяют разработчики, Stable Diffusion Online поддерживает более ста языков. Лучше всего английский, при введении запросов на других языках нейросеть может допускать ошибки.
Нейросеть знает многие стили — от ренессанса до Ван Гога. Правда, выбрать их не получится, на сайте нет такой функции, нейросеть сама выбирает, в стиле какого художника она нарисует картину.
Stable Diffusion Online также бесплатна. Для того чтобы её протестировать, не надо даже регистрироваться. Поиграться с нейросетью можно на официальном сайте.
Там всё так же просто, как и на сайтах других нейросетей. Есть строка для ввода текста и кнопка «Сгенерировать». Правда, нейросеть работает не всегда стабильно, часто она отказывается создавать изображения, так как желающих сделать это одновременно бывает очень много.
Вводим в окно текст: Donald Trump In Guantanamo. И получаем сразу четыре картинки, вот одна из них.
Теперь пробуем дать нейросети запрос на русском: «Лыжник катится с Эльбруса».
Ничего похожего на лыжника и Эльбрус здесь нет. Пожалуй, это худший результат среди западных нейросетей при вводе задания на русском языке.
Итак, практически все нейросети довольно точно умеют изображать то, что вы им закажете, — при условии, что они вас поймут. Многие из них лучше всего работают на английском. На других языках, в том числе русском, они генерируют неточные изображения — они не соответствуют запросу.
В этом разрезе российские нейросети, пусть и могут отставать от своих конкурентов по каким-то параметрам, выгодно отличаются способностью с полуслова понять российских же пользователей. Но даже опуская языковой вопрос, Kandinsky 2.1 и «Шедеврум» показали, что умеют генерировать картинки не хуже лучших зарубежных нейросетей и смогут составить им серьёзную конкуренцию.
Коллаж: «Секрет фирмы», Unsplash/Andrea De Santis, Ferhat Deniz Fors, Unsplash License, freepik/kjpargeter, Kandinsky 2.1