«Шедеврум» и Kandinsky 2.1: нейросетевое импортозамещение
Запуск собственной нейросети от «Яндекса» для генерации изображений по текстовому описанию наделал немало шума в рунете. Приложение «Шедеврум» стало самым скачиваемым в российском сегменте App Store и Google Play. В чем уникальность проекта и как им пользоваться — будем разбираться в статье.
Сервисы, позволяющие генерировать изображения по текстовым описаниям, существуют уже не первый год. Такие монстры как Midjourney и DALL-E уже давно поражают мир своими картинками. Microsoft и вовсе позволяет «поиграть» с искусственным интеллектом при помощи адресной строки браузера Edge. Вот только на данный момент все эти инструменты не понимают описаний на русском языке и вряд ли научатся этому в ближайшее время. Вроде бы не проблема, но непереводимые идиоматические выражения тоже достойны визуализации.
Галерея
Именно в этом и заключается основное отличие отечественных сервисов. Они понимают по-русски, легко натягивают сову на глобус и умеют рисовать сферического коня в вакууме.
Почему мы пишем про отечественные сервисы во множественном числе? Потому что практически одновременно с анонсом «Шедеврума» от «Яндекса» другой отечественный гигант — «Сбер» — представил очередную версию 2.1 своей нейросети Kandinsky. Поработать с ней можно прямо в вашем браузере по ссылке, в мобильном приложении «Салют» или по команде «Запусти художника» на умных устройствах от «Сбера». Так что нейросеть на русском — это, в общем-то, давно не новость.
Вкратце — о Kandinsky 2.1
Версию Kandinsky 2.0 показали в уже далеком ноябре 2022 года, а самый первый релиз состоялся в июне 2022. За это время нейросеть дообучили на сотнях миллионов изображений с описанием.
Галерея
Она умеет работать в разных стилях и в целом является на данном этапе развития вполне функциональным продуктом, генерирующим качественные изображения… ну, пожалуй, кроме человеческих рук.
Галерея
Подробнее — о новом «Шедевруме»
И все же вернемся к «Шедевруму». Сердца пользователей он покорил не столько громким именем разработчика или сверхвысоким качеством генерации изображений. Создатели приложения (а пока «пообщаться» с нейросетью можно только через приложения под iOS или Android) сделали интерфейс, очень похожий на одну популярную, но запрещенную в России соцсеть. Главная страница — это лента картинок с текстовыми описаниями, по которым они созданы. Естественно, в топ попадает то, что «зашло» пользователям. Открываешь, а там «глиста в скафандре» или «команда сутулых собак на бизнес-ланче».
Здесь важно отметить, что «Шедеврум» работает в бета-режиме. Создавать собственные изображения может не каждый пользователь: доступ выдается в порядке очереди. Например, автор этой статьи ждал больше суток! А в это время можно полистать ленту и познакомиться с лучшими творениями искусственного интеллекта.
Интерфейс в виде ленты на главной странице хорош еще и тем, что не оставляет пользователя один на один с ИИ. Кто уже имеет опыт работы с подобными сервисами, наверняка замечал: ход «мыслей» нейросети далеко не всегда совпадает с человеческим — и это вскоре начинает напрягать.
Ну казалось бы, куда уж проще — нарисовать ладонь с пятью пальцами! Но почему-то именно такие тривиальные задачи нейросеть отрабатывает со скрипом.
Ждешь несколько минут, получаешь сомнительный результат, повторяешь шаги… И тут лента с удачными генерациями от других пользователей — как глоток свежего воздуха. Значит, эта штука работает, нужно просто еще раз попробовать.
Кстати, о качестве генерации… Во многом успех зависит от точности описания. Нейросеть легко проглатывает длинные тексты с массой деталей. Возможно, не все из них будут взяты в работу, но попробовать точно стоит.
С простыми задачами проблем также не возникает. Визуализация может варьироваться, но в целом нейросеть с большой долей вероятности нарисует все более-менее адекватно.
Искусственный интеллект неплохо ознакомлен со стилистикой известных авторов и может подражать им в визуализации.
«Шедеврум» знает отдельные произведения искусства, но не всегда хорошо ориентируется в литературных, кинематографических и мультипликационных персонажах. Например, образ Чебурашки вызывает ряд вопросов, хотя Терминатора нейросеть отрисовывает на ура. Будет ли использована стилистическая привязка к произведению искусства в каждом конкретном случае — нейросеть решает сама.
Галерея
Безусловно, есть ограничения на некоторые текстовые описания. Под запретом обнаженная натура, наркотики т. п. Это не значит, что нейросеть не умеет визуализировать данные понятия, запрет стоит именно на использование подобных запросов. Алкоголь и курение в вымышленном мире цензуре пока не подверглись.
Галерея
Также под запретом изображения конкретных людей: вам не удастся нарисовать карикатуру на известную личность.
Итоговое разрешение изображений оставляет желать лучшего, так что пока биллборды из таких картинок тоже не напечатать. А вот меню для ресторана — вполне. Нейросеть явно повидала в процессе обучения не один миллион стоковых фото. Еда в ее исполнении смотрится аппетитно и красиво.
Зачем это нужно и к чему приведет?
На данном этапе для широкой аудитории отечественные нейросети для генерации изображений — не более чем игрушка. Здесь можно создать немыслимые картинки за пару минут или увидеть забавную визуализацию нашумевших мемов. Но это пока… Уже сегодня более развитые нейросети используются дизайнерами для создания изображений, в том числе для рекламы. Например, компания Levi’s планирует отказаться от моделей и создавать лица для рекламы с помощью нейросети. Уже сейчас существуют генераторы видео по текстовым описаниям. И развитие подобных технологий идет семимильными шагами.
Галерея
К чему это приведет в будущем — не знает никто. Илон Маск, Стив Возняк и еще около 1000 экспертов недавно призвали хотя бы на шесть месяцев приостановить обучение мощных нейросетей, пока не появятся общие протоколы безопасности. И речь не только о наполнении информационных каналов фейковым контентом. Авторы обращения пишут: «Должны ли мы позволять машинам наводнять наши информационные каналы пропагандой? Должны ли мы автоматизировать все рабочие места? Должны ли мы развивать нечеловеческие умы, которые в конечном итоге могут превзойти нас численностью, перехитрить, сделать нас ненужными и заменить нас? Должны ли мы рисковать потерей контроля над нашей цивилизацией?»
Подумайте об этом, набирая на клавиатуре очередное текстовое описание смешного котика или лайкая очень успешную генерацию.
Понравилась статья?
Теги статьи
Похожие статьи
Нам нравится, что вам нравится
Уверены, вы можете не хуже! Напишите статью и получите Бонусы.
Спасибо, что вам есть что сказать
Попробуйте расширить свою мысль и написать статью — и получите за это Бонусы.
Комментарии
Авторизуйтесь, чтобы иметь возможность писать комментарии:
Войти