В этом разделе кратко рассматриваются пять самых популярных программ генеративного ИИ: Midjourney, Stable Diffusion, DALL.E, Leonardo.AI и Firefly. Каждая платформа имеет свои плюсы и минусы, описанные ниже и сравненные в блоке A.
ВСТАВКА A: СРАВНЕНИЕ ПРОГРАММ ИИ
Для сравнения пяти наиболее широко используемых программ генеративного ИИ была использована одна и та же подсказка для создания четырех вариантов кольца с тремя камнями танзанита с использованием каждой программы (рисунки A-1–A-5). Использованная подсказка была «платиновое кольцо с тремя камнями, центральный камень танзанит, боковые камни бриллианты, фотореалистичное». Для DALL.E использовалась полная структура предложения для той же подсказки.
Рисунок A-1. Изображения, созданные Midjourney 6. Эти дизайны содержат сложные детали, включая органические завитки и мелкую зернистость. Драгоценные камни находятся в подходящей цветовой гамме для танзанита и бриллиантов. Изображения также имеют определенную глубину резкости, что делает их более фотореалистичными.
Рисунок A-2. Изображения, созданные DreamStudio SDXL v1.0. Эти проекты менее детализированы, но все же в основном являются точными изображениями ювелирных изделий. Металл и драгоценные камни показывают соответствующую цветовую гамму для своих материалов. Изображение в нижнем левом углу показывает некоторые неточности в оправах зубцов, размытие между зубцами и бриллиантами в центральной оправе и добавление дополнительных зубцов в боковую оправу слева. Опять же, определенная глубина резкости очевидна, что делает изображения более фотореалистичными.
Рисунок A-3. Изображения, созданные DALL.E 3 с помощью подсказки «создать фотореалистичное изображение платинового кольца с тремя камнями, с танзанитом в центре и бриллиантами по бокам». Эти изображения демонстрируют некоторую детализацию и креативность в дизайне и демонстрируют более широкий спектр форм камней. Однако на нижнем левом изображении некоторые детали плохо определены, например, милгрейн вдоль оправы канала, гравировка на внутренней стороне шинки и детали по бокам оправы груши. На всех изображениях цвета достаточно точны для материалов. Изображения менее фотореалистичны и больше напоминают цифровые визуализации из программы САПР. Эта стилистическая визуализация, по-видимому, одинакова для всех изображений, созданных с помощью DALL.E.
Рисунок A-4. Изображения, созданные Leonardo.AI Phoenix. Кольца на этих изображениях удивительно похожи, с небольшими различиями в дизайне или расположении. Дизайн также очень прост по сравнению с предыдущими тремя примерами. Для создания большего количества вариантов дизайна потребовалось бы большее разнообразие подсказок. Все изображения показывают некоторую степень глубины резкости, а нижнее левое изображение также показывает особое размытие света на заднем плане, создавая фотореалистичный эффект.
Рисунок A-5. Изображения, созданные Adobe Firefly 2. Эти кольца являются менее точными изображениями концепции «кольца с тремя камнями», приведенной в подсказке, особенно верхнее левое изображение, на котором вообще нет боковых камней. Желаемые материалы, танзанит и платина, также плохо изображены и их легко можно спутать с синим сапфиром и белым золотом. При более близком рассмотрении центральные «танзанитовые» камни демонстрируют упрощенный рисунок огранки, не характерный для коммерческих огранок. Нижнее правое кольцо также кажется немного некруглым. Эти неточности, вероятно, связаны с меньшим объемом обучающих данных по ювелирным изделиям, доступных Firefly.
Midjourney в настоящее время является одним из самых популярных и надежных генераторов изображений на основе ИИ. Изображения могут быть очень подробными, креативными и реалистичными, а ответы на подсказки отражают разумное понимание общепринятой ювелирной терминологии (см. рисунки 1–3 и 9–13).
Стоимость подписки зависит от уровня членства. Скорость генерации изображений меняется соответственно, но даже базовый план может генерировать набор из четырех изображений в течение 30 секунд. Обычно все созданные изображения публикуются на веб-сайте Midjourney и видны всем другим пользователям. Два самых высоких уровня членства предлагают режим конфиденциальности, который не позволяет делиться сгенерированными изображениями.
Главным недостатком Midjourney является то, что в настоящее время к нему можно получить доступ только через интерфейс Discord. Изначально созданное как приложение для чата и обмена сообщениями для видеогеймеров, чтобы они могли взаимодействовать друг с другом, сообщество Discord распространилось на многие области за пределами игр. Однако интерфейс Discord может показаться сложным для новых пользователей, особенно тех, кто не знаком с чатами видеоигр и стриминговыми платформами. Чтобы облегчить эту проблему, Midjourney разрабатывает веб-интерфейс. Однако на момент написания этой статьи веб-версия находится на закрытой стадии разработки и открыта только для избранных пользователей.
Stable Diffusion от Stability AI — это программа генеративного ИИ с открытым исходным кодом. Онлайн-интерфейс прост в использовании и доступен через веб-интерфейс DreamStudio. Пользователям предоставляются бесплатные кредиты для начала, и они могут приобретать больше по мере необходимости.
Наиболее распространенной критикой DreamStudio является то, что изображения в нем менее креативны, чем в других программах, в частности в Midjourney, которая, как считается, обладает более художественным стилем.
Рисунок 14. Изображение, созданное с помощью искусственного интеллекта Dream Studio SDXL v1.0 с использованием подсказки «платиновое кольцо с тремя камнями, центральный камень — танзанит, боковые камни — бриллианты, фотореалистичное» (слева) и варианты с интенсивностью изображения 25% и 50% (справа).
Одна из областей, в которой DreamStudio преуспевает, — это создание вариаций на основе существующего изображения (см. рисунок 8). После загрузки исходного изображения можно установить ползунок, чтобы определить, насколько близко или свободно вариации должны следовать оригиналу (рисунок 14). Более высокое значение силы изображения заставит все новые изображения более строго придерживаться оригинала, в то время как более низкое значение силы изображения предоставит ИИ больше «творческой лицензии» для создания вариаций.
Stable Diffusion предлагается как программа с открытым исходным кодом и может быть установлена локально на компьютере, а не использоваться через веб-страницу DreamStudio. Хотя запуск Stable Diffusion локально на компьютере может замедлить процесс генерации в зависимости от характеристик компьютера, он предлагает несколько ключевых преимуществ. Одно из них заключается в том, что все созданные изображения хранятся в тайне от других пользователей и Интернета в целом. Большинство других программ взимают с пользователей плату за сохранение конфиденциальности их данных. Другим существенным преимуществом является то, что продвинутый пользователь может настраивать процесс диффузии с помощью сэмплеров. Сэмплер — это надстройка к модели диффузии, которая может подталкивать создание изображения к определенным стилям или результатам (Gilgamesh, 2023). Это дает пользователю больший контроль над определенными качествами и деталями созданных изображений.
DALL.E создан OpenAI, той же компанией, которая создала известный ChatGPT. Последняя версия DALL.E полностью интегрирована с ChatGPT, что означает, что пользователи могут задавать ему вопросы с помощью письменного или устного диалога вместо подсказок в виде кода (см. рисунок 4).
Хотя создаваемые изображения могут быть чрезвычайно подробными, процесс обычно медленнее и менее настраиваемый, чем в других программах. Бесплатные учетные записи доступны для обеих программ; однако на момент написания этой статьи для доступа к последним версиям ChatGPT и DALL.E необходима ежемесячная подписка.
DALL.E также может запоминать предыдущие разговоры и писать собственные подсказки, когда его просят описать загруженные изображения. После интеграции с ChatGPT DALL.E быстро стал популярным соперником Midjourney.
Leonardo.AI — еще один генератор изображений, который недавно стал очень популярным конкурентом Midjourney. Хотя Leonardo имеет более сложный веб-интерфейс, чем Dream Studio, DALL.E и Firefly, он предлагает больше разнообразия и контроля как над типами доступных подсказок, так и над стилем создаваемых изображений.
Базовые членства Leonardo бесплатны с ограниченным количеством генераций в месяц. Доступно несколько уровней платного членства, предлагающих большую скорость генерации и другие опции. На нижних уровнях членства все изображения, загруженные и созданные Leonardo, становятся частью набора данных программы, а частные учетные записи доступны за ежемесячную плату.
Как и Midjourney, Leonardo хорошо разбирается в ювелирной терминологии и, скорее всего, создаст изображения, которые технически соответствуют подсказке. Часть того, что делает Leonardo уникальным, — это возможность комбинировать текстовые подсказки с программой для создания эскизов в реальном времени, называемой Realtime Canvas. Сгенерированное изображение постоянно обновляется в рамках параметров текстовой подсказки, когда пользователь делает эскизы через веб-интерфейс или через приложение iOS. Leonardo также позволяет пользователям «тренировать» собственные модели изображений, загружая до 40 изображений. Затем ИИ использует этот пользовательский набор данных для точной настройки своих результатов для пользователя.
Adobe Firefly — относительно опоздавший в области генеративного ИИ, но предлагает уникальный набор активов, а именно существующий пакет Creative Cloud от Adobe. Инструмент Firefly — это и автономный генератор изображений, и встроенный плагин для Photoshop, где его можно использовать для генеративного заполнения областей композиции с превосходными возможностями закрашивания и закрашивания.
Firefly можно приобрести как отдельный продукт или включить в стоимость Photoshop или Creative Cloud. Веб-сайт Firefly прост в использовании для быстрого создания и изменения изображений.
Одним из главных преимуществ Firefly является также его самый большой недостаток для создания ювелирных изделий: уникальные источники обучающих данных Adobe. Большинство других программ генеративного ИИ обучались на триллионах изображений, извлеченных со всего Интернета, что включает в себя огромное количество изображений ювелирных изделий. Для сравнения, Firefly обучался на сотнях миллионов изображений Adobe Stock, открыто лицензированном контенте и изображениях, находящихся в открытом доступе. Поэтому нормативная среда для Adobe Firefly более ясна, что будет подробно рассмотрено в следующем разделе. Однако это значительно меньший набор данных, чем у других программ, и еще меньшая его часть обучена на ювелирных изделиях. Следовательно, Firefly хуже понимает формы и терминологию ювелирных изделий.
Как и в случае с любой новой технологией, каждый человек в конечном итоге решает, стать ли ему одним из первых ее последователей, приняв на себя как риск, так и выгоду, или подождать, наблюдая и учась на достижениях и ошибках других.