Ефективно използване на текст към изображение със стабилна дифузия, алтернативата на DALL-E 2 / MidJourney

септември 2, 2022

Възможно е да се използва изкуствен интелект, за да се генерират изображения от текст (известно още като превръщане на текст в изображение). Стабилната дифузия от Stability AI е най-добрият модел на ИИ с отворен код за генериране на изображения и е чудесна алтернатива на DALL-E 2 или MidJourney. Но правилното използване на този модел изисква известна практика, затова нека ви покажем как да генерирате невероятни изображения със Stable Diffusion!

DALL-E 2 и средата на пътуването

DALL-E 2, пуснат от OpenAI, е мощен AI модел за преобразуване на текст в изображение. Но към момента на писане на тази статия той все още е в затворена бета версия, което означава, че трябва да поискате специален достъп, за да го използвате.

С DALL-E 2 можете да генерирате реалистични изображения, които изглеждат като истинска снимка, или да генерирате по-абстрактни изображения, които могат да изглеждат като рисунки, картини или компютърно генерирани изображения.

MidJourney също е чудесен кандидат за превръщане на текст в изображение и е особено популярен за генериране на изкуство с изкуствен интелект.

Как генерирате такива изображения? Просто като създадете текстова инструкция на естествен език. Ето няколко примера:

Концептуално изображение на футуристичен град по време на залез слънце.

Концептуално изображение на футуристичен град по време на залез слънце, генерирано от Stable Diffusion

Снимка на горила на улицата.

Снимка на горила на улицата, генерирана от стабилна дифузия

Стабилна дифузия

Стабилната дифузия е модел с отворен код за преобразуване на текст в изображение, създаден от компания от изследователи, наречена Stability AI (вижте техния уебсайт тук).

Стабилната дифузия е първият модел на изкуствен интелект с отворен код, който постига същите резултати като DALL-E 2 и MidJourney. Той връща точни резултати, като същевременно поддържа доста ниско време за реакция.

Стабилната дифузия вече е достъпна в NLP Cloud! Но за да се възползвате максимално от този чудесен модел на изкуствен интелект, е необходима известна практика и може да останете разочаровани от първите си резултати.

Ето защо решихме, че ще бъде интересно да ви дадем повече информация за това как да използвате тези модели за преобразуване на текст в изображение.

Наивният подход

На пръв поглед може да искате да използвате много прости инструкции като "кола" или "лъв". Това не е задължително да върне невероятни резултати. Ето няколко примера:

Автомобил

Автомобил, генериран чрез стабилна дифузия

Лъв

Лъв, създаден чрез стабилна дифузия

Това не е лошо, но можем да се справим много по-добре!

Изберете техника

Най-лесното и впечатляващо подобрение, което можете да направите, е да изберете техника за създаване на изображение. Това може да бъде например маслена живопис, рисунка с молив, концептуално изкуство, фотография... Нека опитаме с няколко примера:

Рисунка с молив на лъв

Рисунка с молив на лъв, генерирана чрез стабилна дифузия

Картина с маслени бои на езеро през зимата

Картина с маслени бои на езеро през зимата, създадена чрез стабилна дифузия

Концептуално изкуство на киберпънк автомобил

Концептуално изображение на киберпънк автомобил, генерирано от Stable Diffusion

Впечатляващо е да видиш колко лесно е да създадеш изкуство в определен стил за нула време, нали?

Изберете стил

Понякога една техника не е достатъчна, за да опише вида на изображението, което искате да създадете. В този случай посочването на художник може да помогне! Ето няколко примера:

Поле с лалета, дело на Клод Моне

Поле от лалета на Клод Моне, генерирано от Stable Diffusion

Картина с маслени бои на жена, дело на Рембранд

Картина с маслени бои на жена, нарисувана от Рембранд, генерирана чрез стабилна дифузия

Това е добра възможност да проучите творци, които все още не познавате.

Разгледайте

Горните примери може да са много полезни, но все пак можете да се справите по-добре, като използвате някои конкретни ключови думи. Екипът на Stability AI препоръчва да опитате някои от следните ключови думи в инструкциите си:

Високо детайлен, сюрреализъм, тенденция в арт станцията, триадична цветова схема, гладка, остър фокус, матов, елегантен, най-красивото изображение, което някога сте виждали, илюстрация, цифрова боя, тъмно, мрачно, октаново ренде, 8k, 4k, измити цветове, рязко, драматично осветление, красиво, последваща обработка, снимка на деня, околно осветление, епичен състав.

Няма съмнение, че ще откриете специални инструкции, които никой никога не е опитвал преди вас, които създават невероятни резултати!

Можете да създавате и по-дълги инструкции. Не е задължително да се ограничите до едно изречение. Вместо това можете да използвате например цял параграф.

Ако ви трябват идеи, ето няколко интересни примера:

изключително подробни футуристични Apple iGlass компютърни очила на лицето на човека, киберпънк, проследяване на ръката, концептуално изкуство, изкуство на героите, студио мълния, ярки цветове, сложни, шедьовър, фотореалистични, хиперреалистични, остър фокус, висок контраст, Artstation HQ, DeviantArt тенденция, 8k UHD, Unreal Engine 5

Подробен портрет на манга илюстрация характер на цялото тяло на тъмнокос киборг аниме човек, който има червено механично око, тенденция в artstation, цифрово изкуство, 4 k резолюция, подробен, високо качество, остър фокус, hq произведения на изкуството, луд детайл, концептуално изкуство, концепция за характер, илюстрация на характер, илюстрация на цялото тяло, кинематографичен, драматично осветление

киберпънк воин от племето зулу, седнал на скала и наблюдаващ отдалеч падането на метеор на земята, автор: Алена Анами, Андроид Джоунс и Грег Рутковски, Trending on artstation, хиперреализъм, елегантен, стилизиран, изключително детайлно цифрово изкуство, 8k резолюция, hd, глобално осветление, трасиране на лъчи, лъчиста светлина, обемно осветление, подробна и сложна среда на киберпънк гетото, визуализирана в октан, масло върху платно, широк ъгъл, динамичен портрет

Машината бог се възстановява, фантазия, d & d, сложни, подробни, причудливи, подробни, тенденция в artstation, тенденция в artstation, гладка

Стар мъдър монах, който води изгубена душа през Лимбо, в стила на Томер Ханука и Атей Гайлан, ярки цветове, тенденция в artstation

Пол Бетани като ангел с крила е покрит с лозя, цветя и мъх и стои пред красива вила, дигитална картина от Томас Канти и Томас Кинкейд и Рос Трън, арт нуво, атмосферно осветление, тенденции в artstation

концептуално изкуство за кола с огромни остри шипове, нарисувано от Syd Mead, високо качество

Разтревожени добре изглеждащи бледи млади индийски лекари, облечени в американски дрехи извън болница, портрет, елегантен, сложен, цифрова живопис, artstation, концептуално изкуство, гладка, остър фокус, илюстрация, изкуство от artgerm и Грег Рутковски и Алфонс Муха

бог на черепа, портрет отблизо, мощен, сложен, елегантен, обемно осветление, пейзаж, дигитална живопис, много подробен, artstation, остър фокус, илюстрация, концептуално изкуство, Руан Джиа, Стив МакКъри

украинско момиче със сини и жълти дрехи в близост до голям разрушен самолет, концептуално изкуство, тенденция в artstation, много детайлно, сложно, остър фокус, дигитално изкуство, 8 k

ужасяващ нечестив плачещ призрак, много подробно лице, подробни характеристики, фантазия, електрическа верига, експлозия, драматичен, сложен, елегантен, много подробен, цифрова живопис, artstation, концептуално изкуство, гладка, остър фокус, илюстрация, изкуство от Гюстав Доре, октаново ренде

Красива и игрива дама портрет на свободата, ар нуво, фантазия, държаща ваза от Рене Лалик , елегантна, много детайлна, с остър фокус, изкуство от Artgerm и Грег Рутковски и WLOP

портрет на жена, която е представител на аржентинската култура, Буенос Айрес, фантазия, сложна, много подробна, цифрова живопис, artstation, концептуално изкуство, гладка, остър фокус, илюстрация, изкуство от artgerm и greg rutkowski и alphonse mucha

Картина от Greg Rutkowski, през нощта голяма керамична кана със златни орнаменти лети високо в нощното тъмносиньо небе над малка бяла къща под сламен покрив, звезди в небето, богати живописни цветове

пица парти в увеселителен парк, лек прах, великолепен, близък план, подробности, рязък фокус, елегантен, много подробен, илюстрация, от Йордан Гример и Грег Рутковски и PiNe(パイネ) и 薯子Imoko и 香川悠作 и wlop и Maya takamura, сложен, красив, Trending artstation, pixiv, цифрово изкуство

Студийна снимка на хиперреалистична точна портретна скулптура на Тимъти Далтън, красива симетрична!! лице точно лице подробно лице реалистични пропорции, изработена от розово матирано стъкло на пиедестал от Рон Мюек и Матю Барни и Грег Рутковски, хиперреализъм кинематографично осветление шокиращ детайл 8 k

Заключение

Както можете да видите, генерирането на изображения е много впечатляваща техника, която е демократизирана от модели като DALL-E 2 или MidJourney и Stable Diffusion.

След като овладеете техниките за преобразуване на текст в изображение, можете лесно да генерирате тонове невероятни изображения на мига.

Надявам се да ви е било полезно! Ако имате въпроси за това как да направите най-стабилната дифузия, моля не се колебайте да ни попитате.

Julien Salinas
Технически директор в NLP Cloud