Как пользоваться нейросетью midjourney и подключить её к серверу на дискорде, чтобы делать картинки / skillbox media

Как работает Midjourney

Нейросеть Midjourney работает на основе двух научных достижений в области работы над ИИ ― возможности распознавать человеческую речь и умении создавать картинки и образы. Программа использует глубокое обучение и выстраивает взаимосвязи между введённым запросом от человека и данными из огромной загруженной в неё библиотеки.

Попытки создать подобную программу были и раньше. Например, приложение Prisma превращало фотографии в «картины», используя стили знаменитых художников. Несмотря на успех Prisma, Midjourney выигрывает как в популярности, так и в функциональности. Эта нейросеть может не только копировать и применять стили, но также создавать собственные изображения с нуля и даже имитировать фото.

Сюжет «Металлический робот с квадратной головой рисует картинки. В стиле комикса»Изображение: Midjourney / Skillbox Media

Как добиться хорошего результата

По картинке генерировать проще, чем с нуля: вы сразу показываете нейросети, с чем ей работать. Но сложности могут возникнуть при составлении запроса или придумывании идей. Несколько наших советов на случай, если результаты генерации вам не нравятся.

Выбирайте селфи или портреты с хорошим освещением. Лицо должно быть изображено крупным планом. Если использовать фото по пояс или в полный рост, высока вероятность того, что Midjourney проигнорирует ваши черты лица. Зато в таком случае у нейросети остается место, чтобы нарисовать красивый и детальный фон. Так что, вероятно, придется выбирать.

Мой коллега обработал фото в стиле фильма «Бегущий по лезвию 2049» — красиво, но его самого почти не видно, а лицо сгенерировалось без деталей

Уточняйте в запросе гендер. Midjourney иногда может сгенерировать вместо девушки мужчину и наоборот. Причем нередки ситуации, когда по одному запросу нейросеть делает, к примеру, трех девочек и одного деда. Если не хотите стать бородатым дядей, то добавьте к запросу female, girl или woman.

Не придумывайте запрос — возьмите картинку. Нейросеть умеет миксовать два изображения. Вместо того чтобы писать запрос, можно просто скопировать ссылку на любое изображение с понравившимся вам персонажем или стилем. Так нейросеть справляется даже лучше: у меня несколько раз не вышло сгенерировать себя в образе супергероини через запрос, а с картинкой сработало отлично.

Я, скрещенная с Чудо-женщиной

Меняйте фотографии. Некоторые фотографии получаются лучше в стиле аниме, а другие — в более реалистическом стиле. Если снимок «не работает» в определенной стилистике, попробуйте другое фото.

Попробуйте преобразовать фото с животными. Особенно советуем тематические мультики вроде «Мой сосед Тоторо». Нейросеть очень охотно стилизует котов и собак.

Воспользуйтесь специальным сервисом по подбору запроса. Если не можете сами придумать, в каком стиле себя сделать, воспользуйтесь промптерами — небольшими сервисами, помогающими сформулировать запрос. Там есть перечень популярных стилей, с которыми нейросеть точно справляется. Советуем Prompter и Phraser.

НА АНГЛИЙСКОМ ЯЗЫКЕ Bing Image Creator

Где попробовать: браузерная версияПростота освоения: Качество генерации: Фан-эффект:

Генератор Bing работает на технологиях компании, которая создала ChatGPT

Bing Image Creator — самый простой способ попробовать нейросеть Dall-E от OpenAI. Ее сильно ждали в 2022 году, но сервис «застрял» в стадии закрытой беты, а потом уступил лидерство Midjourney и Stable Diffusion. Теперь это часть поисковика Microsoft.

Получить доступ к нейросети можно двумя способами. Самый простой — перейти во вкладку, которая работает во всех браузерах, но в России только с VPN. Там достаточно ввести запрос в соответствующую строку и получить четыре картинки. Ежедневно каждый пользователь получает 25 «бустов», их хватает на генерацию 100 изображений. Когда они закончатся, можно продолжать работу, но результат придется ждать дольше.

Нейросеть не всегда удачно работает с лицами и иногда генерирует немного пугающих людей, но в целом качественно работает даже с лаконичными промтами и выдает четкие изображения. Для тех, кто не определился, что хочется увидеть, есть кнопка «Удивите меня» — ИИ предложит свои варианты.

Второй способ использования Bing Image Creator — в Bing chat copilot, где надо обязательно выбрать «творческий» режим. Но инструмент пока находится в процессе тестирования и доступен всего для 20% пользователей.

Как сгенерировать стилизованный аватар в Midjourney

Один из пользователей «Твиттера» рассказал в треде, как создать картинку на основе своей фотографии. Пересказываем и дополняем его советы.

Шаг 1. Midjourney доступна только в виде бота в «Дискорде». Нужно зарегистрироваться на платформе и присоединиться к официальному серверу команды нейросети.

Шаг 2. Во вкладке Newcomer Rooms перейдите в любой канал Newbies. В этих каналах пользователи создают картинки. Вы будете видеть все их попытки создать картинку при помощи нейросети, а они — ваши.

Шаг 3. Напишите в чате команду /settings и установите следующие настройки: MU version 4, Style med, Regular upscale, Remix mode, Fast Mode.

Шаг 4. Введите команду /imagine, наберите любой текст и отправьте в чат. Это тестовый запрос, который ни к чему не приведет. После него появится сообщение, в котором нужно принять правила пользования Midjorney. Нажмите Accept ToS.

Шаг 5. Выберите свою фотографию, где хорошо видно лицо. Загрузите фотографию на любой хостинг, откуда можно скопировать ссылку на изображение. Просто загрузить картинку в «Дискорд» не выйдет. Подойдет хостинг Postimages — он не ухудшает качество. Скопируйте оттуда ссылку из поля direct link. Фотографию можно также скопировать из «Телеграма» или «Вконтакте».

Шаг 6. Вернитесь в «Дискорд», снова наберите в чате команду /imagine, а в появившейся строке Prompt добавьте ссылку на свою фотографию.

Шаг 7. После пробела дополните картинку текстовым описанием, что должно поменяться. Запрос будет отражать стилизацию вашей фотографии. Например, если вы хотите сделать из себя персонажа «Гарри Поттера», введите Harry Potter character. Если вам нравится какой-то визуальный стиль, добавляйте art style, например Van Gogh art style. Не обязательно придерживаться этих правил, пишите все, что приходит в голову. Можно экспериментировать, но помните про ограничение в 25 генераций.

Шаг 8. Нейросеть в прямом эфире сгенерирует четыре картинки. Это еще не готовый результат. Под коллажем появятся кнопки — U1, U2, U3, U4 и V1, V2, V3, V4. Первый параметр — апскейлинг. Выберите наиболее удачную картинку из четырех, а нейросеть улучшит ее разрешение и заодно добавит деталей. Второй параметр позволяет создать новые вариации конкретной картинки из коллажа — на случай, если вам нравится результат, но хочется посмотреть, что еще сделает нейросеть в том же духе. На апскейлинг тоже тратятся бесплатные генерации.

Шаг 9. Перезапустить генерацию по тому же запросу можно кнопкой со стрелками. Чтобы сохранить результат, откройте изображение и кликните на «Открыть оригинал». Картинка откроется во вкладке браузера.

С помощью каких еще нейросетей можно обработать фото

Dream Studio. В облегченной версии нейросети Stable Diffusion есть возможность загрузить свое фото и добавить к нему запрос. Получается не так качественно, как в Midjourney, но зато нейросеть добавляет больше деталей из запроса. Бесплатно можно сгенерировать до 200 изображений.

Draw Anyone. Сервис работает на основе Stable Diffusion и генерирует аватарки в заданных разработчиками стилях. Нужно загрузить 5—10 своих фотографий и ждать, пока они обрабатываются. Очередь длинная — обработка может занимать до четырех дней. Бесплатно можно сохранить только несколько изображений.

FaceTune. В приложение для ретуши лица добавили ИИ-генератор стилизованных изображений. Нужно загрузить пять своих фотографий и ждать, пока они обработаются. После этого можно как применять подготовленные разработчиками фильтры, так и прописывать свой запрос. Генерировать картинки можно бесплатно и безлимитно. Приложение доступно для iOS и Android.

Результат генерации и запрос в FaceTune

Генерировали картинки в нейросетях? Поделитесь своими результатами и расскажите, какой запрос использовали

Опубликовать

Как не попасться на удочку искусственного интеллекта

Ещё до появления Midjourney учёные заметили, что людям всё сложнее становится распознавать различия между реальными фото и результатом работы нейросетей.

В 2022 году Хани Фарид, профессор из Калифорнийского университета в Беркли, и Софи Найтингейл из Ланкастерского университета в Англии провели исследование. В его ходе они предлагали испытуемым определить, какой портрет сделан при помощи фотографии, а какой ― нейросетью. По итогам выяснилось, что участники смогли определить настоящие лица лишь с точностью в 48,2%.

Мы собрали несколько подсказок, которые помогут отличить изображение, созданное нейросетью, от фотографии или картины, сделанных человеком.

Обращайте внимание на:

1. Анатомия человека

Очень часто нейросети изображают руки с большим количеством пальцев, положение которых далеко от физиологичного. Проблема частично устранена только в последней версии Midjourney, при более ранних версиях приходилось использовать сторонний плагин, исправляющий эту ошибку.

На нейросетевое происхождение этой крестьянки указывает странный наряд и количество пальцев на рукеИзображение: Midjourney / Skillbox Media

Зубы на картинках нейросети тоже выглядят нереалистично ― их бывает слишком много. А вот обсчитаться в количестве глаз сложнее ― только смотрят они практически всегда как будто в никуда: взгляд на большинстве портретов пустой и безжизненный.

2. Искажения в деталях

Нейросети хорошо справляются с крупными планами, поскольку они содержат меньше деталей. Ведь чем больше разнородных элементов на картинке, тем сложнее не ошибиться в их воспроизведении. По этой же причине нейросети почти всегда размывают фон за главным героем.

Также нейросети сложно даются функциональные элементы, поскольку она «не понимает» их назначения. Предметы выглядят похожими на реально существующие, но при этом в жизни ими пользоваться было бы невозможно.

На куртке правого манекена пяти прорезям соответствует семь пуговиц, расположенных на произвольных расстояниях друг от другаИзображение: Midjourney / Skillbox Media

3. Логотипы, надписи, узоры

Искусственный интеллект ещё не умеет рисовать логотипы и текст, так как не понимает логики знаков и того, что у надписи есть смысл. Например, татуировки чаще всего не имеют оформленного рисунка и сюжета, особенно если содержат всё те же надписи.

Издалека татуировки выглядят правдоподобно, но если приглядеться, то становится заметно, что это хаос, не имеющий смыслаИзображение: Midjourney / Skillbox Media

4. Симметрия

Пока что нейросети не до конца научились делать симметричные объекты, поскольку не совсем понимают, что же они рисуют. За время обучения алгоритмы хорошо усваивают, как устроены лица и морды животных, симметрия тела и насекомых. При этом им пока что не под силу опознать устройство, например, человеческой одежды. Нередко пиджаки имеют полы разной длины, левая часть предмета не соответствует правой. Симметричные узоры также выглядят идеальными лишь на первый взгляд ― творчество нейросети в них выдаёт несовпадение в мелочах, если приглядеться.

Очень правдоподобный снимок за одним исключением: на правом ботинке пять отверстий для шнурков, а на левом ― только четыреИзображение: Midjourney / Skillbox Media

5. Культурный контекст

Несмотря на то что нейронные сети быстро учатся, они ещё не могут разбираться в исторических и культурных реалиях. И здесь бывает много смешных ошибок. Например, три одновременно надетых православных крестика, ордена за военные заслуги, распределённые по всему мундиру, нелепая шляпка, не соответствующая эпохе. Именно поэтому нейросетям лучше всего даются вымышленные, фантастические сюжеты.

Права на изображения Midjourney

Многие думают, что если изображение создала нейросеть, то права на него автоматически принадлежат пользователю-автору, ведь нейросеть ― это технология и обладать авторскими правами она не может. Но всё не так просто. Разработчики вложили в создание сети немало ресурсов, а сама Midjourney принадлежит компании Midjourney Inc.

Права на картинки, сделанные с помощью Midjourney, прописаны в Пользовательском соглашении и зависят от подписки на сервис.

При бесплатной подписке на полученные изображения действует лицензия Creative Commons Noncommercial 4.0 Attribution International. Таким образом, делиться, изменять и распространять результаты работы нейросети можно с указанием источника, а коммерческое использование ― запрещено.

Как пользоваться Midjourney бесплатно и купить подписку

В «Дискорде» есть лимит на бесплатную генерацию изображений — 25 штук для одного пользователя

Важно, что в это число входят не только оригинальные запросы, но и просьбы улучшить детализацию или сделать вариации уже полученной картинки. Бот в «Дискорде» предупредит вас, когда попытки начнут подходить к концу

Так что в случае, если вы истратили все попытки, придется просить друзей или регистрировать новый аккаунт в «Дискорде». Помните, что к номеру телефона можно привязать не больше одного профиля.

Самый простой способ иметь постоянный бесплатный доступ к Midjourney:

Создать свой сервер в «Дискорде».
Добавить туда бота.
Пользоваться ботом, а как только попытки закончились — добавлять на сервер новый аккаунт с новыми попытками.

Однако есть риск, что вас заблокируют за нарушение правил «Дискорда».

Обновление: 31 марта Midjourney приостановила доступ к генератору изображений для бесплатных пользователей. Среди причин в компании назвали «абьюз пробного периода». Создатели нейросети пообещали улучшить систему модерации в скором времени.

Как пользоваться Midjourney платно. У Midjourney есть платная подписка с несколькими уровнями. На любом уровне подписки можно пользоваться не стартовыми каналами Newbies, а General. Также можно генерировать картинки прямо в личных сообщениях бота: для этого найдите его и нажмите «Написать сообщение».

Вот тарифные планы

Важно обращать внимание на часы «быстрой генерации»: после того как они закончатся, картинки будут создаваться медленнее

Пользователи с российскими картами из-за ограничений не смогут оплатить премиум-версию. Стоит найти знакомого с иностранной картой.

Платная подписка Midjourney

План	Стоимость	Время «быстрой генерации»
Базовый	10 $⁣ ( 772 Р) в месяц, 96 $⁣ ( 7408 Р) в год	3,3 часа в месяц
Стандартный	30 $⁣ ( 2315 Р) в месяц, 288 $⁣ ( 22 225 Р) в год	15 часов в месяц
Профессиональный	60 $⁣ ( 1 Р) в месяц, 576 $⁣ ( 1 Р) в год	30 часов в месяц

Базовый

Стоимость
10 $⁣ ( 772 Р) в месяц, 96 $⁣ ( 7408 Р) в год

Время «быстрой генерации»
3,3 часа в месяц

Стандартный

Стоимость
30 $⁣ ( 2315 Р) в месяц, 288 $⁣ ( 22 225 Р) в год

Время «быстрой генерации»
15 часов в месяц

Профессиональный

Стоимость
60 $⁣ ( 1 Р) в месяц, 576 $⁣ ( 1 Р) в год

Время «быстрой генерации»
30 часов в месяц

Что такое Niji Journey и как ей воспользоваться

Как получить доступ к Njji Journey. В основе сервиса лежит Midjourney — нейросеть, генерирующая картинки по текстовому описанию. Мы подробно рассказывали о сервисе в отдельном материале. Это самая доступная нейросеть из конкурентов. К Dall-E нет публичного доступа, а для запуска полноценной Stable Diffusion нужен хороший компьютер. Вся работа с Midjourney происходит в мессенджере «Дискорда» с любого устройства.

Niji Journey основана на Midjourney, но обучена только на аниме и манге. Ее создали в коллаборации с разработчиками Waifulabs — авторами первого нейросетевого генератора аниме-персонажей. Чтобы получить доступ к Niji Journey, нужно вступить в сообщество нейросети в «Дискорде». У основной Midjourney другой сервер.

Как сгенерировать аниме-картинку. Niji Journey работает точно так же, как Midjourney. На сервере ищите каналы image-generation. Там вместе с вами картинки будут генерировать другие пользователи. Чтобы нейросеть сгенерировала изображение, нужно ввести команду /imagine в любом из чатов и придумать запрос.

Описание желаемой картинки сформулируйте на английском языке. Если не знаете английский, можете попробовать плагин-переводчик для «Дискорда». Когда придумаете запрос, нажмите кнопку «Отправить». Бот начнет генерировать изображение. Вы в прямом эфире увидите, как смутные очертания превращаются в четыре картинки.

Дискорд-сервер Niji Journey

Четыре получившиеся картинки — не итоговый результат. Под коллажом появятся кнопки U1, U2, U3, U4 и V1, V2, V3, V4.

Первый параметр — апскейлинг. Выберите наиболее удачную картинку из четырех, и нейросеть улучшит ее разрешение, а заодно добавит деталей.

Второй параметр позволяет создать еще четыре вариации конкретной картинки из коллажа — на случай, если вам нравится результат, но хочется посмотреть, что еще сделает нейросеть в том же духе.

Какие есть ограничения и сколько стоит подписка. В бесплатной версии нейросети 25 попыток. Попытка тратится и на полноценный запрос, и на апскейл картинки. Если вы уже потратили свои генерации в Midjourney, то новые в Niji Journey не будут доступны. Ограничения можно убрать, заплатив за подписку. У Midjourney и Niji Journey общая подписка: если заплатили за первый сервис, то доступ ко второму откроется автоматически.

Второй способ увеличить количество попыток — заново создавать аккаунты в «Дискорде» после каждого окончания пробной версии. Но есть риск получить бан на платформе. Третий способ — купить подписку на основную Midjourney за 30 $⁣ ( 2093 Р) в месяц. Если подписка на Midjourney активна, то доступ к Niji Journey предоставляется бесплатно.

Про подписку на Midjourney и Niji Journey

У платной подписки два уровня — базовый за 10 $⁣ ( 698 Р) и стандартный за 30 $⁣ ( 2093 Р).

Базовая подписка предоставляет доступ к 200 минутам быстрой генерации в месяц — за это время можно сделать примерно 200 картинок. После истечения лимита изображения генерируются в «расслабленном» режиме: это означает, что нужно вставать в очередь за другими пользователями. У стандартной 15 часов быстрой генерации в месяц, это примерно 900 картинок, а также повышенное качество и возможность создавать картинки в приватном канале.

Заплатить российской банковской картой нельзя.

О каких еще лайфхаках Niji Journey стоит знать

Как выбрать разрешение картинки. По умолчанию нейросеть генерирует картинки в разрешении 1:1. Его можно изменить, если добавить в конце запроса параметр —ar. Горизонтальное разрешение —ar 3:2 создает кинематографичные картинки, а вертикальное —ar 2:3 — постеры и портреты. Другие разрешения в Niji Journey не работают. Запрос выглядит так: 90s anime, girl at the deck, —ar 2:3.

Как смешивать картинки. Если понравилась композиция или стилистика сгенерированной картинки, можно использовать ее как основу для запроса и менять в ней персонажей. Для этого нужно включить в настройках ремикс-мод. Напишите в чате /settings и нажмите на Remix mode. После этого при нажатии на варианты V1, V2, V3 или V4 появится окно с запросом, который можно исправить или дополнить.

Другой способ — загружать результат обратно в Niji Journey. Для этого нажмите правой кнопкой на получившуюся картинку, выберите «Открыть оригинал», скопируйте ссылку из браузера, вставьте ее в строку в «Дискорде» и напишите запрос.

Так работает Remix — мне понравился результат, но я захотела сменить Годзиллу на Кинг Конга

Как распределять вес запроса. Чем больше вес у определенного параметра, тем сильнее он влияет на результат генерации. Значение всех параметров по умолчанию — 0,25. Чтобы добавить вес, подпишите к слову в запросе::x, а чтобы его убрать —::-x. Сумма весов не может быть негативной.

К примеру, генерация манги на основе фотографии Niji Journey дается труднее: нейросеть заимствует цветовую палитру от исходной картинки, хотя она должна быть черно-белой. Поэтому можно сделать негативный запрос photograph::-1, чтобы убрать элементы фотографии, и усилить стилизацию c помощью запроса panel from manga::3.

Как работают нейросети

Нейросеть ― программа, которая устроена по принципу нейронных связей в человеческом головном мозге. Впервые этот термин появился ещё в середине ХХ века, когда учёные решили попробовать создать технологию, которая могла бы повторить работу мозга человека.

Визуализация нейронных связей нервной системы человекаИзображение: whitehoune / Shutterstock

Нейронные сети по своей структуре имитируют нервную систему. Они состоят из множества нейронных процессоров — «узлов» по типу нейронов в мозге. Каждый из узлов может анализировать данные, полученные при взаимодействиях с человеком или другими узлами. В результате современные нейросети могут самостоятельно обучаться, находить ошибки в своей работе и применять предыдущий опыт.

Разработчики нейросетей редко используют термин «искусственный интеллект», они придерживаются понятия «машинное обучение». Суть его не в решении задачи по конкретному алгоритму, а в создании алгоритма на основе многих аналогичных задач. Ещё один термин ― «глубокое обучение» (с англ. «deep learning»). Это одно из направлений машинного обучения, которое работает с большим объёмом данных (big data) для поиска закономерностей и взаимосвязей.

Но в XX веке технологических возможностей было недостаточно. Углублённое изучение нейронных сетей началось в начале нулевых. В это время появились мощные процессоры, следовательно, и возможность обрабатывать большие массивы информации.

Несмотря на то что громко заговорили о нейросетях лишь недавно, такие корпорации, как Google, Apple, «Яндекс» начали использовать возможности ИИ более десяти лет назад. Так, ещё в 2009 году «Яндекс» интегрировал в свою поисковую систему метод «Матрикснет», который строит ранжирование ссылок на основе обучения. А в 2010 году Apple приобрели Siri ― она распознаёт речь с помощью искусственного интеллекта.

Всплеск интереса к нейросетям со стороны обычного пользователя ― момент, когда результат работы искусственного интеллекта стал осязаем и возможность повлиять на него получил каждый.

Сколько стоит Midjourney

Первая бета-версия Midjourney появилась в 2022 году. Изначально программа давала 25 бесплатных попыток, которых хватало максимум на 12 изображений. Но недавно Midjourney ввела ограничения для новых пользователей, сократив время для бесплатной генерации изображений до 15 минут, причём даже эта возможность доступна не всегда.

Сейчас на сайте указано три платных тарифных плана. Их стоимость формирует в первую очередь время доступа к ускоренной обработке задач и количество заданий, которые можно обрабатывать одновременно.

На базовом тарифе можно генерировать изображение суммарно чуть более трёх часов, причём только в ускоренном режиме. Тариф Standart стоит 30 долларов в месяц, в нём доступна опция медленной загрузки процессора, и время для генерации изображений не ограничено.

Нейросеть постоянно обучается, и к этому привлекают пользователей. Оценивая картинки нейросети, можно зарабатывать себе дополнительное время увеличенных мощностей для генерации изображений ― эта опция доступна на всех платных тарифах.

Как скрещивать картинки в Midjourney

В обновленной версии алгоритма Midjourney v4 сильно улучшили функцию «скрещивания» картинок-референсов в новое изображение. Как это работает: не нужно даже формулировать запрос к нейросети, достаточно ввести команду /imagine в «Дискорде» и в поле Prompt вставить ссылки на две картинки в формате JPG. После этого нейросеть сгенерирует изображение, которое возьмет что-то от обоих источников.

Тут уже не до корги на мотоцикле

Можно скрестить двух персонажей или использовать комбинацию «персонаж + картинка с атмосферой». У авторов работ различается мнение, влияет ли очередность ссылок на результат: одни говорят, что первый референс выступает базой для нейросети, другие — что в любом случае заимствование идет в пропорции 50 на 50.

При желании к ссылкам можно добавить и текстовые уточнения.

Какие запросы должны получиться в итоге

Ниже — реальные запросы к Midjourney от пользователей Reddit, которыми они поделились с сообществом. Можно использовать их как шаблоны: оставлять структуру, но менять фильмы, годы, описания сцен и режиссеров.

Пример простого запроса для случайного кадра из фильма: DVD screengrab from the movie Return of The Jedi, 1983 —ar 3:2 —v 4.

Пример запроса для генерации сцены из фильма со стилистикой другого фильма или режиссера: DVD screengrab of the scene from the Star Wars movie directed by Alejandro Jodorowsky, 1975 —ar 3:2 —q 2 —v 4.

Пример простого тегового запроса: DVD screengrab, The Alien movie, 1989 Studio Ghibli anime movie style —ar 3:2 —q 2 —v 4.