ПОНИМАНИЕ ГЕНЕРАТИВНОГО ИИ (продолжение)

Хорошей новостью для большинства дизайнеров ювелирных изделий является то, что знание технических деталей модели ИИ не имеет никакого значения для эффективного использования инструмента. Полное понимание базового программирования не даст случайному пользователю лучших результатов.

В широком смысле, генеративный ИИ относится к типу искусственного интеллекта, который может генерировать новый контент, включая текст, изображения, музыку или даже видео, которые ранее не существовали. Генеративный ИИ по сути работает с использованием сложных алгоритмов и больших объемов данных. Уникальность этого процесса заключается в машинном обучении, используемом для поиска закономерностей в этих данных.

Машинное обучение — это наука о разработке моделей, которые компьютерные системы используют для выполнения сложных задач без явных инструкций. Здесь ИИ учится на данных, усваивая информацию и со временем работая лучше. Система обрабатывает большие объемы данных, чтобы выявить закономерности. Затем ИИ анализирует данные с помощью алгоритмов и делает прогнозы на основе этого анализа данных. ИИ предпринимает множество попыток обработать данные, проверяя себя и измеряя свою производительность после каждого раунда обработки данных. Таким образом, ИИ «учится» на ошибках и постепенно улучшает свою способность генерировать все более сложный и реалистичный новый контент. При наличии достаточного количества текста, изображений или других данных генеративный ИИ может находить закономерности, связывающие похожие концепции вместе, а затем создавать новый результат, который следует тем же закономерностям (Сандерсон, 2017; см. также https://www.youtube.com/@3blue1brown).

Создание изображений. Так как же генеративный ИИ на самом деле создает изображения? Модели создания изображений ИИ представляют собой особое применение генеративного ИИ, которое фокусируется на визуальном контенте, таком как изображения или графика. Эти модели привлекли внимание мировых СМИ своей способностью создавать потрясающие, иногда сюрреалистические изображения на основе простых текстовых описаний. Одной из наиболее распространенных моделей создания изображений для генеративного ИИ является модель диффузии. Чтобы понять, как работает эта модель, полезно понять, что диффузия, упомянутая в названии, похожа на концепцию диффузии частиц в физике. В изображении эта «диффузия частиц» представлена каждым пикселем, движущимся или изменяющимся в случайном направлении, медленно преобразуя изображение в статический или визуальный шум.

Рисунок 6. Шаги прямой диффузии. Шум добавляется к изображению на каждом шаге, пока оно не станет полностью рандомизированным.

Например, рассмотрим изображение бриллианта на рисунке 6. Пользователь может начать с этого, чтобы обучить модель для создания других изображений бриллиантов или драгоценных камней. Шаг за шагом к обучающему изображению добавляется немного шума. В конце концов обучающее изображение становится совершенно нераспознаваемым как бриллиант, показывая только случайность. Этот процесс прямой диффузии берет исходное изображение и добавляет шум, постепенно преобразуя его в нераспознаваемое шумовое изображение (Stable Diffusion Art, 2024).

Как исходное изображение алмаза, так и изображения для каждого шага добавленного шума подаются в модель нейронной сети, которая пытается точно рассчитать, сколько и какой тип шума был добавлен на каждом шаге. При наличии достаточного количества данных эта модель нейронной сети может создать рабочую модель прогнозирования шума. После этого модель прогнозирования шума можно применить в обратном порядке.

Рисунок 7. Шаги обратной диффузии. Предсказанный шум удаляется шаг за шагом из случайно сгенерированного изображения, пока оно не разрешится в узнаваемое изображение.

При обратной диффузии процесс начинается со случайно сгенерированного изображения. Затем предиктор шума вычисляет количество шума, добавленного к изображению. Этот шум вычитается из исходного рандомизированного изображения. Процесс повторяется до тех пор, пока он не разрешится в изображение бриллианта, как показано на рисунке 7 (Stable Diffusion Art, 2024).

Эти модели обучаются не на одном изображении, а на триллионах изображений. При наличии достаточного количества данных генеративный ИИ может назначать пути обратной диффузии для любого типа изображения или подсказки, на которой он обучен. Правильно обученная модель будет создавать множество различных изображений бриллиантов или любого другого предмета на основе изученных путей из каждого из обучающих изображений, а модель, обученная на изображениях ювелирных изделий, сможет генерировать совершенно новые изображения драгоценных камней и ювелирных изделий.

Подсказки. На момент написания этой статьи текстовые подсказки по-прежнему являются наиболее распространенным способом взаимодействия с любой программой генеративного ИИ. Где-то между языком кодирования и обычной структурой предложения каждое слово в текстовой подсказке преобразуется в собственный набор взвешенных векторов, которые используются для «направления» шума к желаемому результату. Каждая программа имеет свои собственные языковые требования и особенности, которые можно использовать для оптимизации контроля пользователя над изображением.

При наличии текстового описания ИИ применяет то, чему он научился во время обучения, чтобы перевести эти слова в визуальный формат. Например, если пользователь запрашивает у него изображение «заката над океаном», ИИ объединяет свое понимание «заката» и «океана», чтобы создать совершенно новое изображение, которое соответствует описанию. Присвоив вес каждой части подсказки, модель будет использовать другой прогноз шума. Объединение этих весов подсказок с начальным изображением случайно сгенерированного шума вернет почти бесконечное количество возможных результатов.

Рисунок 8. Слева: брошь «River» из стерлингового серебра от Dolmen Metalworks с кабошонами из камня реки Миссисипи. Фото Майкла Маги. Справа: восемь вариантов ожерелий, созданных в Dream Studio SDXL v1.0 с использованием подсказки «серебряное ожерелье, водный мотив, пескоструйная обработка и высокая полировка, кабошоны». Шестое изображение было создано без камней.

Вместо того, чтобы создавать изображение, используя только текст, большинство платформ позволяют пользователю загружать изображение в качестве отправной точки или использовать комбинацию подсказок изображения и текста. Эта подсказка может быть исходным изображением, введенным пользователем, или изображением, ранее сгенерированным ИИ. На рисунке 8 мы видим пример фотографии, используемой в сочетании с текстовой подсказкой для создания вариаций на основе идентифицируемого содержания, цветовой схемы и стиля исходного изображения.

Рисунок 9. Дизайн подвески из Midjourney 5.2 с использованием подсказки «подвеска из эмали и желтого золота, стиль Альфонса Мухи, ар-нуво, афроамериканка в профиль, на фоне цветов, эскиз на белой бумаге, нарисованный мастером-дизайнером».

Помимо создания совершенно новых изображений, таких как на рисунке 9, возможности генеративного ИИ могут быть сосредоточены на определенном аспекте существующего изображения. Четыре из наиболее часто используемых инструментов — это outpainting, inpainting, upscaling, и blending . Каждая программа генеративного ИИ также имеет свои собственные фирменные функции, способности и особенности в дополнение к этим общим инструментам.

Рисунок 10. Изображения из Midjourney 5.2 до и после перекраски.

Outpainting расширяет изображение, фактически уменьшая масштаб, а затем заполняя то, что ИИ ожидает найти в сцене вокруг исходного изображения (рисунок 10). Обычно это можно сделать с дополнительной текстовой подсказкой, поясняющей, что должно заполнять внешнюю часть, или без нее.

Рисунок 11. Изображения из Midjourney 5.2 с использованием подсказки по зарисовке «еще растения на столе».

Для Inpainting пользователю необходимо указать часть изображения, которую следует заменить (рисунок 11). Затем ИИ обновляет выбранную часть изображения. Это также можно сделать как с дополнительной текстовой подсказкой, так и без нее, чтобы определить, что должно измениться в изображении.

Рисунок 12. Изображения из Midjourney 5.2 до и после масштабирования.

Масштабирование позволяет пользователю увеличивать изображение, не уменьшая его разрешение (рисунок 12). При масштабировании изображения ИИ делит каждый пиксель на соответствующее количество новых пикселей, добавляя новую информацию и увеличивая общий размер изображения. Конечным результатом является изображение, которое и больше по общему размеру, и имеет повышенную четкость. Никакие дополнительные текстовые подсказки не используются, поскольку ИИ не добавляет и не вычитает никаких подсказанных предметов. Вместо этого ИИ использует само изображение в качестве подсказки для заполнения деталей с более высоким разрешением.

Рисунок 13. Два изображения, созданные с помощью Midjourney 5.2 (слева и в центре), и их итоговое объединенное изображение (справа). Подсказка 1 (слева): «подвеска из эмали и желтого золота, стиль Альфонса Мухи, ар-нуво, афроамериканка в профиль, на фоне цветов, эскиз на белой бумаге, нарисованный мастером-дизайнером». Подсказка 2 (в центре): «дизайнер ювелирных изделий и компьютер с искусственным интеллектом вместе разрабатывают новый дизайн на бумаге в мастерской дизайнера ювелирных изделий».

Смешивание берет два или более существующих изображений и создает новое изображение, которое объединяет аспекты каждого из оригиналов (рисунок 13), с дополнительной текстовой подсказкой или без нее.

Источник: gia.edu