Базовое устройство промптов для генерации картинок в нейросетях

При написании промптов для нейросетей важно выделить несколько основных разделов, которые обеспечат эффективную генерацию картинки в соответствии с заданными характеристиками. Промпты для генерации картинок всегда пишутся только на английском. Промпты для генерации текста можно писать на русском (на любом языке, входящем в состав дозволенных нейросетью), ответ, в таком случае, тоже получите на русском (на том языке, на котором дали запрос на генерацию текста).

Вот ключевые разделы, которые следует включить в описание промпта:

1. Описание задачи:

Краткое описание того, что вы хотите и его главные характеристики для генерации картинок. Например: a beautiful girl.

В запросе к ChatGPT важно следовать определенному алгоритму, чтобы получить наиболее полезный и точный ответ.

Вот шаги, которые вы можете использовать:

Кто мы такие? Опишите вкратце вашу роль, задачи и контекст запроса. Например: "Мы являемся исследователями, и нас интересует изучение влияния искусственного интеллекта на бизнес-процессы."
Какую задачу мы хотим дать чату GPT? Четко сформулируйте ваш запрос или задачу, чтобы модель понимала, что от нее требуется. Например: "Мы хотели бы, чтобы ChatGPT помог ответить на вопрос о влиянии искусственного интеллекта на бизнес-процессы и привели примеры успешной реализации."
Контекст для задачи, который необходимо упомянуть. Предоставьте дополнительную информацию, которая может помочь ChatGPT понять задачу более точно. Это может включать в себя ссылки на статьи, ссылки на сайты, данные, примеры или другую контекстуальную информацию. Формат ответа от нейросети может включать в себя таблицы, различную длину ответа (например, супер краткий ответ), стихотворные формы, резюме, диалог и т.д. Нейросеть можно просить сформулировать ответ в виде стихов, в виде скетча, рассказов, статей и обзоров. В контексте формулировки задачи можно задавать вопросы, просить нейросеть принять участие в ролевых играх (написать ответ на запрос от имени известного лица).
Ограничения по ответу от чата GPT. Если у вас есть специфические ограничения по длине ответа, стилю или другим параметрам, укажите их. Например: "Просим ограничить ответ до 200 слов и предоставить практические примеры использования искусственного интеллекта в бизнесе."

Следование этому алгоритму поможет ChatGPT понять ваш запрос и предоставить более точные, информативные и релевантные ответы.

2. Входные данные:

Уточнение начальных слов, фраз или контекста, который будет использоваться в качестве триггера для генерации картинок.

3. Желаемый стиль:

Характеристики стиля изображения, такие как тон, краски, освещение, уровень формальности или жанр, который должен быть воплощен в сгенерированной картинке. Параметры стилизации могут быть выражены как в числовых значения от 0 и выше, так и от типа стилизации. К основным типам и параметрам стилизации относятся: stylize определяет эстетику, weird определяет необычность (насколько необычным будет следующее изображение по сравнению с предыдущим, новый параметр в Midjourney), chaos определяет вариативность, влияет на результат таким образом, что изображение становится менее предсказуемым (отвечает насколько сильно отличаются друг от друга исходные изображения внутри одной сетки, новый параметр в Midjourney).

4. Параметры генерации:

Указание особых параметров, таких как размер картинки, уровень креативности, или особенности структуры картинки, параметры случайности, которые нужно учесть при ее генерации.

Информацию о различных форматах изображений с соотношением сторон. Вот краткое описание каждого формата:

1:1 - Квадратное соотношение сторон, обычно используется для социальных медиа и фотографий профиля;
16:9 - Широко распространенный видеоформат, более подходит для просмотра видео на экранах и мониторах;
9:16 - Телефонный формат, часто применяется для вертикального видео, подогнанного под мобильные устройства;
40:5 - Узкий горизонтальный формат, редко используемый, обычно при нестандартных видео-экспериментах;
5:40 - Узкий вертикальный формат, также нестандартный и редко применяется;
1000:1 - По сути, это большое соотношение сторон в формате ±100:7, и это является пределом в соотношении сторон.

Приведу пример основных параметров генерации для бота Midjourney:

--aspect или --ar задаёт соотношение сторон в изображении;
--chaos или --с задаёт вариативность в сетке из 4 изображений;
--fast позволяет сгенерировать одно изображение в режиме быстрой генерации;
--relax позволяет сгенерировать одно изображение в режиме спокойной генерации;
--turbo позволяет сгенерировать одно изображение в режиме турбо (самый дорогой режим генерации);
--iw (от 0 до 2) задаёт влияние картинки на промпт;
--quality или --q (0.25, 0.5 или 1) качество генерации изображения;
--repeat (от 1 до 40) позволяет автоматически повторять промпт указанное количество раз;
--seed число, используется для создания исходного шума, это число, которое используется для того, чтобы генерировать изображения, более похожие друг на друга;
--stop (от 10 до 100) позволяет затормозить процесс до его завершения;
--style raw параметр позволяет сделать более фотореалистичными изображения;
--stylize или --s (от 0 до 1000) устанавливает силу стилизации изображений;
--tile позволяет создавать изображения, пригодные для дальнейшего текстурирования;
--weird (от 0 до 3000) задаёт странность изображений;
--niji переключает на альтернативную модель, тренированную на аниме стиле, работает в разных стилях ([default], [original], [cute], [expressive], [scenic]);
--no исключает перечисленные токены из генерации, обозначает негативный промпт. Указывает на то, чего на картинке быть не должно. При указании данного параметра нейросеть будет избегать указанных объектов в генерируемой картинке.

Пример промпта для генерации изображений на основе заданных характеристик:

Промпт: "Кошка с книгой и цветком | Яркое и пастельное | Умиротворенное | В стиле Леонардо да Винчи | Для места встречи 23.03.2024 года в 14:00"
В данном примере промпта содержатся следующие элементы:

[кто/что] with [с чем] and [ещё что]: "Кошка с книгой и цветком"
[характеристика изображения]: "Яркое и пастельное"
[в стиле какого автора]: "В стиле Леонардо да Винчи"
[служебная информация]: "Для места встречи 23.03.2024 года в 14:00"

Присваивание весов отдельным элементам может влиять на приоритет их учета при генерации контента. Последующее включение весов в характеристики элементов промпта может повлиять на их значимость и частоту появления в результате генерации изображения. Это позволяет точнее контролировать и формировать итоговый результат, соответствующий требуемым ожиданиям и стилевым предпочтениям.

Исключение отдельных токенов или элементов из генерации промпта может привести к исчезновению соответствующих объектов из изображения, так как нейросеть будет игнорировать или не учитывать указанные элементы при создании контента, отмечая взаимосвязь между присутствием токенов и конечным результатом.

Подробное описание по каждому из этих разделов обеспечит точность и целеустремленность в генерации картинки при использовании нейросетей.

Вступайте в нашу группу КРЕАТИВНЫЙ ДИЗАЙН в VK, что бы получать креатив первыми.