Efektywne wykorzystanie tekstu do obrazu za pomocą stabilnej dyfuzji, alternatywa dla DALL-E 2 / MidJourney

2 września 2022 r.

Możliwe jest wykorzystanie AI w celu generowania obrazów z tekstu (znanego również jako text to image). Stable Diffusion, autorstwa Stability AI, jest najlepszym modelem open-source AI do generowania obrazów i świetną alternatywą dla DALL-E 2 czy MidJourney. Ale właściwe wykorzystanie tego modelu wymaga trochę praktyki, więc pokażmy ci, jak generować niesamowite obrazy za pomocą Stable Diffusion!

DALL-E 2 i MidJourney

DALL-E 2, wydany przez OpenAI, to potężny model AI do zamiany tekstu na obraz. Ale od tego momentu pisania jest nadal w zamkniętej becie, co oznacza, że musisz poprosić o specjalny dostęp, aby go użyć.

Z DALL-E 2 możesz generować realistyczne obrazy, które wyglądają jak prawdziwa fotografia, lub generować bardziej abstrakcyjne obrazy, które mogą wyglądać jak rysunki, obrazy lub obrazy generowane komputerowo.

MidJourney jest również świetnym kandydatem na tekst do obrazu i jest szczególnie popularny w generowaniu sztuki AI.

Jak wygenerować takie obrazy? Po prostu tworząc instrukcję tekstową w języku naturalnym. Oto kilka przykładów:

Concept art futurystycznego miasta podczas zachodu słońca.

Concept art futurystycznego miasta podczas zachodu słońca, wygenerowany przez Stable Diffusion

Zdjęcie goryla na ulicy.

Zdjęcie goryla na ulicy, wygenerowane przez Stable Diffusion

Dyfuzja stabilna

Stable Diffusion to open-source'owy model przetwarzania tekstu na obraz, stworzony przez firmę badaczy o nazwie Stability AI (zobacz ich stronę internetową tutaj).

Stable Diffusion to pierwszy open-source'owy model AI osiągający taką samą wydajność jak DALL-E 2 i MidJourney. Zwraca on dokładne wyniki przy zachowaniu dość niskiego czasu reakcji.

Stabilna Dyfuzja jest już dostępna w NLP Cloud! Ale wykorzystanie w pełni tego wspaniałego modelu AI wymaga trochę praktyki i możesz być rozczarowany pierwszymi wynikami.

Dlatego pomyśleliśmy, że byłoby interesujące, aby podać więcej szczegółów na temat korzystania z tych modeli tekstu do obrazu.

Podejście naiwne

Na pierwszy rzut oka, możesz chcieć użyć bardzo prostych instrukcji, takich jak "samochód", lub "lew". Niekoniecznie zwróciłoby to niesamowite wyniki. Oto kilka przykładów:

Samochód

Samochód, wygenerowany przez stabilną dyfuzję

A lwa

Lew, wygenerowany przez stabilną dyfuzję

Nie jest to złe, ale stać nas na dużo więcej!

Wybierz technikę

Najprostszym i najbardziej efektownym usprawnieniem, jakie możesz wprowadzić, jest wybór techniki tworzenia obrazu. Na przykład może to być malarstwo olejne, rysunek ołówkiem, concept art, fotografia... Spróbujmy kilku przykładów:

Ołówkowy rysunek lwa

Ołówkowy rysunek lwa, wygenerowany przez stabilną dyfuzję

Obraz olejny przedstawiający jezioro w zimie

Obraz olejny przedstawiający jezioro w zimie, wygenerowany przez dyfuzję stabilną

Concept art cyberpunkowego samochodu

Concept art cyberpunkowego samochodu, wygenerowany przez Stable Diffusion

Imponujące jest to, jak łatwo można w krótkim czasie wygenerować jakąś sztukę według określonego stylu, prawda?

Wybierz styl

Czasami technika nie jest wystarczająca, aby opisać rodzaj obrazu, który chciałbyś wygenerować. W takim przypadku określenie artysty może pomóc! Oto kilka przykładów:

Pole tulipanów wykonane przez Claude'a Moneta

Pole tulipanów wykonane przez Claude Monet, wygenerowane przez Stable Diffusion

Obraz olejny kobiety wykonany przez Rembrandta

Obraz olejny kobiety wykonany przez Rembrandta, wygenerowany przez Stable Diffusion

To dobra okazja do zrobienia researchu na temat artystów, których jeszcze nie znasz.

Poznaj

Powyższe przykłady mogą być bardzo przydatne, ale nadal można zrobić lepiej, używając pewnych konkretnych słów kluczowych. Zespół Stability AI zaleca, abyś wypróbował niektóre z następujących słów kluczowych w swoich instrukcjach:

Wysoka szczegółowość, surrealizm, trend na art station, triadic color scheme, smooth, sharp focus, matte, elegant, the most beautiful image ever seen, illustration, digital paint, dark, gloomy, octane render, 8k, 4k, washed colors, sharp, dramatic lighting, beautiful, post processing, picture of the day, ambient lighting, epic composition.

Bez wątpienia odkryjesz specjalne instrukcje, których nikt nigdy nie próbował przed Tobą, które tworzą niesamowite rezultaty!

Nie krępuj się również tworzyć dłuższych instrukcji. Nie musisz koniecznie ograniczać się do jednego zdania. Możesz zamiast tego użyć na przykład całego akapitu.

Jeśli potrzebujesz pomysłów, oto kilka ciekawych przykładów:

bardzo szczegółowe futurystyczne okulary komputerowe Apple iGlass na twarzy człowieka, cyberpunk, śledzenie dłoni, concept art, character art, studio lightning, jasne kolory, misterne, arcydzieło, fotorealistyczne, hiperrealistyczne, ostrość, wysoki kontrast, Artstation HQ, DeviantArt trending, 8k UHD, Unreal Engine 5

Szczegółowa manga ilustracja charakter pełne ciało portret ciemnowłosy cyborg anime człowiek, który ma czerwony mechaniczne oko, trending na artstation, sztuki cyfrowej, 4 k rozdzielczości, szczegółowe, wysoka jakość, ostrość, hq dzieło sztuki, insane szczegóły, concept art, charakter pojęcie, charakter ilustracja, pełne ciało ilustracja, kinowe, dramatyczne oświetlenie

cyberpunkowy wojownik zulu siedzący na klifie i obserwujący z oddali spadający na ziemię meteor, autorstwa aleny aenami i androida jonesa oraz grega rutkowskiego, Trending on artstation, hiperrealizm, elegancka, stylizowana, bardzo szczegółowa sztuka cyfrowa, rozdzielczość 8k, hd, globalna iluminacja, ray tracing, promieniowanie światła, wolumetryczne oświetlenie, szczegółowe i skomplikowane środowisko cyberpunkowego getta, wyrenderowane w octane, olej na płótnie, szeroki kąt, dynamiczny portret

Bóg maszynowy odbudowujący się, fantasy, d & d, zawiły, szczegółowy, kapryśny, szczegółowy, trendy na artstation, trendy na artstation, gładki

Stary mądry mnich prowadzący zagubioną duszę przez Limbo, w stylu Tomera Hanuka i Atey Ghailan, żywe kolory, trendy na artstation

paul bettany jako anioł ze skrzydłami jest pokryty winoroślą, kwiatami i mchem i stoi przed pięknym domkiem, digital painting by thomas canty and thomas kincade and ross tran, art nouveau, atmospheric lighting, trending on artstation

concept art dla samochodu ogromne ostre kolce, malowane przez syd mead, wysoka jakość

Zaniepokojony dobry patrząc blady młodych indyjskich lekarzy w amerykańskich ubraniach poza szpitalem, portret, elegancki, skomplikowane, malarstwo cyfrowe, artstation, concept art, gładkie, ostrość, ilustracja, sztuka przez artgerm i greg rutkowski i alphonse mucha

bóg czaszki, portret z bliska, potężny, skomplikowany, elegancki, wolumetryczne oświetlenie, sceneria, cyfrowy obraz, bardzo szczegółowy, artstation, ostrość, ilustracja, concept art, ruan jia, steve mccurry

ukraińska dziewczyna w niebiesko-żółtych ubraniach w pobliżu wielkiego zrujnowanego samolotu, concept art, trending on artstation, bardzo szczegółowy, misterny, ostry, digital art, 8 k

przerażający nieświęty płaczący duch, bardzo szczegółowa twarz, szczegółowe cechy, fantasy, obwody, eksplozja, dramatyczny, zawiły, elegancki, bardzo szczegółowy, malarstwo cyfrowe, artstation, concept art, gładki, ostrość, ilustracja, sztuka Gustave Dore, oktanowy render

Piękna i zabawna pani portret wolności, secesja, fantazja, trzymając wazon przez Rene Lalique, elegancki, bardzo szczegółowe, ostrość, art przez Artgerm i Greg Rutkowski i WLOP

portret kobiety, który jest reprezentacją argentyńskiej kultury, buenos aires, fantasy, skomplikowany, bardzo szczegółowy, digital painting, artstation, concept art, gładki, ostry, ilustracja, art by artgerm and greg rutkowski and alphonse mucha

Obraz Grega Rutkowskiego, nocą duży ceramiczny dzban ze złotymi ornamentami leci wysoko na nocnym granatowym niebie nad małym białym domkiem pod strzechą, gwiazdy na niebie, bogata malownicza kolorystyka

pizza party w parku rozrywki, lekki pył, wspaniały, zbliżenie, szczegóły, ostrość, elegancki, bardzo szczegółowy, ilustracja, autorstwa Jordan Grimmer i greg rutkowski i PiNe(パイネ) i 薯子Imoko i 香ם悠作 i wlop i maya takamura, zawiły, piękny, Trending artstation, pixiv, digital Art

Fotografia studyjna hiperrealistycznej dokładnej rzeźby portretowej timothy'ego daltona, piękna symetryczna!!! twarz dokładna twarz szczegółowa twarz realistyczne proporcje, z różowego oszronionego szkła na postumencie przez rona muecka i matthew barneya i grega rutkowskiego, hiperrealizm kinowy oświetlenie szokujące szczegóły 8 k

Wniosek

Jak widać, generowanie obrazu to bardzo efektowna technika, która została zdemokratyzowana przez takie modele jak DALL-E 2 czy MidJourney i Stable Diffusion.

Po opanowaniu technik text to image, można łatwo wygenerować tony niesamowitych obrazów w mgnieniu oka.

Mam nadzieję, że się przydało! Jeśli masz jakieś pytania dotyczące tego, jak zrobić najbardziej stabilną dyfuzję, proszę nie wahaj się nas zapytać.

Julien Salinas
CTO w NLP Cloud