Effektiv användning av text till bild med stabil diffusion, alternativet DALL-E 2 / MidJourney

2 september 2022

Det är möjligt att använda AI för att skapa bilder av text (även kallat text till bild). Stable Diffusion från Stability AI är den bästa AI-modellen med öppen källkod för bildgenerering och ett bra alternativ till DALL-E 2 eller MidJourney. Men att använda den här modellen på rätt sätt kräver lite övning, så låt oss visa dig hur du genererar fantastiska bilder med Stable Diffusion!

DALL-E 2 och MidJourney

DALL-E 2, som släppts av OpenAI, är en kraftfull AI-modell för text till bild. Men den är fortfarande i sluten beta i skrivande stund, vilket innebär att du måste be om särskild tillgång för att använda den.

Med DALL-E 2 kan du antingen skapa realistiska bilder som ser ut som ett riktigt fotografi eller mer abstrakta bilder som kan se ut som teckningar, målningar eller datorgenererade bilder.

MidJourney är också en utmärkt kandidat för text till bild och är särskilt populär för AI-konstgenerering.

Hur skapar man sådana bilder? Helt enkelt genom att skapa en textinstruktion på naturligt språk. Här är några exempel:

Konceptkonst av en futuristisk stad i solnedgången.

Konceptkonst av en futuristisk stad i solnedgången, genererad av Stable Diffusion

Fotografi av en gorilla på gatan.

Foto av en gorilla på gatan, genererat av Stable Diffusion

Stabil diffusion

Stable Diffusion är en text-till-bild-modell med öppen källkod som skapats av ett företag med forskare som heter Stability AI (se deras webbplats här).

Stable Diffusion är den första AI-modellen med öppen källkod som uppnår samma prestanda som DALL-E 2 och MidJourney. Den ger korrekta resultat samtidigt som svarstiden är ganska låg.

Stable Diffusion är nu tillgänglig på NLP Cloud! Men för att få ut det mesta av denna fantastiska AI-modell krävs lite övning och du kan bli besviken på dina första resultat.

Därför tyckte vi att det skulle vara intressant att ge dig mer information om hur du använder dessa text-till-bild-modeller.

Det naiva tillvägagångssättet

Vid första anblicken kanske du vill använda mycket enkla instruktioner som "en bil" eller "ett lejon". Detta skulle inte nödvändigtvis ge fantastiska resultat. Här är några exempel:

En bil

En bil, genererad av Stable Diffusion

Ett lejon

Ett lejon, genererat av Stable Diffusion

Det är inte dåligt, men vi kan göra det mycket bättre!

Välj en teknik

Den enklaste och mest imponerande förbättringen du kan göra är att välja en skapande teknik för din bild. Det kan till exempel vara oljemålning, blyertsritning, konceptkonst, fotografi... Låt oss prova några exempel:

En blyertsteckning av ett lejon

En blyertsteckning av ett lejon, genererad av Stable Diffusion

En oljemålning av en sjö på vintern

En oljemålning av en sjö på vintern, genererad av stabil diffusion.

En konceptkonst av en cyberpunk-bil

En konceptkonst av en cyberpunkbil, genererad av Stable Diffusion

Det är imponerande att se hur lätt det är att skapa konst som följer en viss stil på nolltid, eller hur?

Välj en stil

Ibland räcker det inte med en teknik för att beskriva den typ av bild som du vill skapa. I det fallet kan det hjälpa att ange en konstnär! Här är några exempel:

Ett tulpanfält av Claude Monet

Ett tulpanfält av Claude Monet, genererat av Stable Diffusion

En oljemålning av en kvinna av Rembrandt.

En oljemålning av en kvinna gjord av Rembrandt, genererad med stabil diffusion.

Det är ett bra tillfälle att göra lite research om artister som du ännu inte känner till.

Utforska

Exemplen ovan kan vara mycket användbara, men du kan fortfarande göra bättre ifrån dig genom att använda vissa specifika nyckelord. Stability AI-teamet rekommenderar att du prövar några av följande nyckelord i dina instruktioner:

Mycket detaljerad, surrealism, trender på art station, triadisk färgschema, slät, skarp fokus, matt, elegant, den vackraste bilden någonsin sett, illustration, digital färg, mörk, dyster, oktan render, 8k, 4k, tvättade färger, skarp, dramatisk belysning, vacker, efterbehandling, dagens bild, omgivande belysning, episk komposition.

Du kommer utan tvekan att upptäcka speciella instruktioner som ingen har provat tidigare och som ger fantastiska resultat!

Du kan också gärna skapa längre instruktioner. Du behöver inte nödvändigtvis hålla dig till en enda mening. Du kan till exempel använda ett helt stycke i stället.

Om du behöver idéer kan du hitta några intressanta exempel här:

mycket detaljerade futuristiska Apple iGlass dator glasögon på ansikte av människa, cyberpunk, hand spårning, koncept konst, karaktär konst, studio lightning, ljusa färger, intrikata, mästerverk, fotorealistisk, hyperrealistisk, skarp fokus, hög kontrast, Artstation HQ, DeviantArt trending, 8k UHD, Unreal Engine 5

En detaljerad mangaillustration karaktärsfull kroppsporträtt av en mörkhårig cyborg anime man som har ett rött mekaniskt öga, trending on artstation, digital konst, 4 k upplösning, detaljerad, hög kvalitet, skarp fokus, hq konstverk, vansinnig detalj, konceptkonst, karaktärskoncept, karaktärsillustration, illustration av hela kroppen, filmisk, dramatisk ljussättning

en cyberpunk zulu krigare som sitter på en klippa och tittar på en meteor som faller till jorden på avstånd, av alena aenami och android jones och greg rutkowski, Trending on artstation, hyperrealism, elegant, stiliserad, mycket detaljerad digital konst, 8k upplösning, hd, global illumination, ray tracing, strålande ljus, volymetrisk belysning, detaljerad och invecklad cyberpunk ghettomiljö, renderad i oktan, olja på duk, vidvinkel, dynamiskt porträtt

Maskin gud återuppbygger sig själv, fantasi, d & d, intrikat, detaljerad, finurlig, detaljerad, trendig på artstation, trendig på artstation, smidig

Gammal klok munk som guidar en förlorad själ genom limbo, i stil med Tomer Hanuka och Atey Ghailan, livliga färger, trendigt på artstation

paul bettany som ängel med vingar är täckt av vinstockar och blommor och mossa och står framför en vacker stuga, en digital målning av thomas canty och thomas kincade och ross tran, art nouveau, atmosfärisk belysning, trender på artstation

konceptkonst för en bil med stora vassa spikar, målad av syd mead, hög kvalitet

Orolig snygg blek ung indisk läkare bär amerikanska kläder utanför ett sjukhus, porträtt, elegant, intrikat, digital målning, artstation, konceptkonst, slät, skarp fokus, illustration, konst av artgerm och greg rutkowski och alphonse mucha

skallgud, porträtt på nära håll, kraftfullt, intrikat, elegant, volymetrisk belysning, landskap, digital målning, mycket detaljerad, artstation, skarpt fokus, illustration, konceptkonst, ruan jia, steve mccurry

ukrainsk flicka med blå och gula kläder nära stort förstört plan, konceptkonst, trendigt på artstation, mycket detaljerad, intrikat, skarp fokus, digital konst, 8 k

skrämmande oheligt gråtande spöke, mycket detaljerat ansikte, detaljerade egenskaper, fantasi, kretslopp, explosion, dramatisk, intrikat, elegant, mycket detaljerad, digital målning, konststation, konceptkonst, slät, skarp fokus, illustration, konst av Gustave Dore, oktanrendering

Vacker och lekfull dam liberty porträtt, art nouveau, fantasy, håller en vas av Rene Lalique , elegant, mycket detaljerad, skarp fokus, konst av Artgerm och Greg Rutkowski och WLOP

ett porträtt av en kvinna som representerar argentinsk kultur, Buenos Aires, fantasi, intrikat, mycket detaljerat, digital målning, artstation, konceptkonst, slät, skarp fokus, illustration, konst av artgerm och greg rutkowski och alphonse mucha

Målning av Greg Rutkowski, på natten en stor keramikkanna med guldornament flyger högt i natten mörkblå himmel över ett litet vitt hus under ett halmtak, stjärnor på himlen, rika pittoreska färger.

pizzafest i en nöjespark, ljusdamm, magnifik, närbild, detaljer, skarpt fokus, elegant, mycket detaljerad, illustration, av Jordan Grimmer och greg rutkowski och PiNe(パイネ) och 薯子Imoko och 香川悠作 och wlop och maya takamura, intrikat, vackert, Trending artstation, pixiv, digital Art

Studio fotografi av hyperrealistisk exakt porträttskulptur av timothy dalton, vacker symmetrisk!! ansikte exakt ansikte detaljerade ansikte realistiska proportioner, gjord av rosa frostat glas på en piedestal av Ron Mueck och Matthew Barney och Greg Rutkowski, hyperrealism filmisk belysning chockerande detalj 8 k

Slutsats

Som du kan se är bildgenerering en mycket imponerande teknik som har demokratiserats av modeller som DALL-E 2 eller MidJourney och Stable Diffusion.

När du väl behärskar tekniken för text till bild kan du enkelt skapa massor av fantastiska bilder på ett ögonblick.

Hoppas att du fann det användbart! Om du har några frågor om hur du gör den mest stabila spridningen, vänligen kontakta oss tveka inte att fråga oss.

Julien Salinas
CTO på NLP Cloud