Utilizarea eficientă a textului pentru imagine cu difuzie stabilă, alternativa DALL-E 2 / MidJourney

2 septembrie 2022

Este posibil să se utilizeze inteligența artificială pentru a genera imagini din text (cunoscut și sub numele de text în imagine). Stable Diffusion, de la Stability AI, este cel mai bun model de inteligență artificială open-source pentru generarea de imagini și o alternativă excelentă la DALL-E 2 sau MidJourney. Dar utilizarea corectă a acestui model necesită ceva practică, așa că haideți să vă arătăm cum să generați imagini uimitoare cu Stable Diffusion!

DALL-E 2 și MidJourney

DALL-E 2, lansat de OpenAI, este un model puternic de inteligență artificială pentru transformarea textului în imagine. Însă, la momentul redactării acestui articol, acesta se află încă în versiune beta închisă, ceea ce înseamnă că trebuie să solicitați un acces special pentru a-l utiliza.

Cu DALL-E 2 puteți genera fie imagini realiste, care arată ca o fotografie reală, fie imagini mai abstracte, care pot arăta ca niște desene, picturi sau imagini generate pe calculator.

MidJourney este, de asemenea, un candidat foarte bun pentru transformare din text în imagine și este deosebit de popular pentru generarea de artă AI.

Cum se generează astfel de imagini? Pur și simplu prin crearea unei instrucțiuni de text în limbaj natural. Iată câteva exemple:

Concept art al unui oraș futurist în timpul apusului de soare.

Concept art al unui oraș futurist în timpul apusului de soare, generat de Stable Diffusion

Fotografie cu o gorilă pe stradă.

Fotografie cu o gorilă pe stradă, generată de Stable Diffusion

Difuziune stabilă

Stable Diffusion este un model text-imagine cu sursă deschisă, creat de o companie de cercetători numită Stability AI (vezi site-ul lor aici).

Stable Diffusion este primul model de inteligență artificială open-source care atinge aceleași performanțe ca DALL-E 2 și MidJourney. Acesta oferă rezultate precise, menținând în același timp un timp de răspuns destul de redus.

Stable Diffusion este acum disponibil pe NLP Cloud! Dar pentru a profita la maximum de acest model excelent de inteligență artificială este nevoie de ceva practică și s-ar putea să fiți dezamăgit de primele rezultate.

De aceea, ne-am gândit că ar fi interesant să vă oferim mai multe detalii despre cum să folosiți aceste modele de transformare a textului în imagine.

Abordarea naivă

La prima vedere, s-ar putea să doriți să folosiți instrucțiuni foarte simple, cum ar fi "o mașină" sau "un leu". Acest lucru nu ar returna neapărat rezultate uimitoare. Iată câteva exemple:

O mașină

O mașină, generată prin difuzie stabilă

Un leu

Un leu, generat de difuzia stabilă

Nu este rău, dar putem face mult mai bine!

Alegeți o tehnică

Cea mai simplă și mai impresionantă îmbunătățire pe care o puteți face este să selectați o tehnică de creație pentru imaginea dumneavoastră. De exemplu, ar putea fi pictură în ulei, desen în creion, concept art, fotografie... Haideți să încercăm câteva exemple:

Un desen în creion de un leu

Un desen în creion al unui leu, generat de Stable Diffusion

O pictură în ulei a unui lac în timpul iernii

O pictură în ulei a unui lac în timpul iernii, generată prin difuzie stabilă

Un concept art al unei mașini cyberpunk

Un concept art al unei mașini cyberpunk, generat de Stable Diffusion

Impresionant să vezi cât de ușor este să generezi niște artă care să urmeze un anumit stil în cel mai scurt timp, nu-i așa?

Alegeți un stil

Uneori, o tehnică nu este suficientă pentru a descrie tipul de imagine pe care ați dori să o generați. În acest caz, specificarea unui artist poate fi de ajutor! Iată câteva exemple:

Un câmp de lalele realizat de Claude Monet

Un câmp de lalele realizat de Claude Monet, generat de Stable Diffusion

O pictură în ulei a unei femei realizată de Rembrandt

O pictură în ulei a unei femei realizată de Rembrandt, generată prin difuzie stabilă

Este o bună ocazie de a face cercetări despre artiști pe care nu îi cunoașteți încă.

Explorați

Exemplele de mai sus pot fi foarte utile, dar vă puteți descurca mai bine dacă folosiți anumite cuvinte-cheie specifice. Echipa Stability AI vă recomandă să încercați unele dintre următoarele cuvinte cheie în instrucțiunile dumneavoastră:

Foarte detaliat, suprarealism, trending pe art station, schemă de culori triadică, netedă, focalizare clară, mată, elegantă, cea mai frumoasă imagine văzută vreodată, ilustrație, pictură digitală, întunecată, sumbră, randare octanică, 8k, 4k, culori spălate, sharp, iluminare dramatică, frumoasă, post-procesare, imaginea zilei, iluminare ambientală, compoziție epică.

Fără îndoială că veți descoperi instrucțiuni speciale pe care nimeni nu le-a încercat înainte de a vă crea rezultate uimitoare!

De asemenea, nu ezitați să creați instrucțiuni mai lungi. Nu trebuie neapărat să vă limitați la o singură propoziție. Puteți folosi în schimb un întreg paragraf, de exemplu.

Dacă aveți nevoie de idei, iată câteva exemple interesante:

ochelari de calculator Apple iGlass futurist extrem de detaliat pe fața unui om, cyberpunk, urmărirea mâinii, concept art, arta personajului, fulger de studio, culori strălucitoare, complicat, capodoperă, fotorealist, hiperrealist, focalizare clară, contrast ridicat, Artstation HQ, DeviantArt trending, 8k UHD, Unreal Engine 5

O ilustrație manga detaliată manga caracter de caracter portret de corp complet al unui om de anime cyborg cu părul întunecat care are un ochi mecanic roșu, trending pe artstation, artă digitală, rezoluție 4 k, detaliat, de înaltă calitate, focalizare ascuțită, lucrare de artă hq, detaliu nebun, concept de artă, concept de caracter, concept de caracter, ilustrație de caracter, ilustrație de corp complet, cinematic, iluminare dramatică

un războinic zulu cyberpunk care stă pe o stâncă și privește de la distanță un meteorit care cade pe pământ, de alena aenami și android jones și greg rutkowski, Trending on artstation, hiperrealism, artă digitală elegantă, stilizată, extrem de detaliată, rezoluție 8k, hd, iluminare globală, ray tracing, lumină radiantă, iluminare volumetrică, mediu de ghetou cyberpunk detaliat și complicat, redat în octane, ulei pe pânză, unghi larg, portret dinamic

Zeul mașinilor care se reconstruiește, fantezie, fantezie, d & d, complicat, detaliat, capricios, detaliat, trending on artstation, trending on artstation, neted

Bătrânul călugăr înțelept care ghidează un suflet pierdut prin Limbo, în stilul lui Tomer Hanuka și Atey Ghailan, culori vibrante, în trending pe artstation

paul bettany ca înger cu aripi este acoperit de viță de vie și flori și mușchi și stă în fața unei frumoase căsuțe, o pictură digitală de thomas canty și thomas kincade și ross tran, art nouveau, iluminat atmosferic, în trending pe artstation

concept art pentru o mașină cu țepi uriași și ascuțiți, pictat de syd mead, de înaltă calitate

Anxios bine în căutarea tineri medici indieni palid tineri purtând haine americane în afara unui spital, portret, elegant, complicat, pictură digitală, artstation, concept art, neted, focalizare clară, ilustrare, arta de artgerm și greg rutkowski și alphonse mucha

zeu craniu, portret de aproape, puternic, complicat, elegant, iluminat volumetric, peisaj, pictură digitală, foarte detaliat, artstation, focalizare ascuțită, ilustrație, concept art, ruan jia, steve mccurry

fata ucraineană cu haine albastre și galbene lângă avionul mare ruinat, concept art, în trend pe artstation, foarte detaliat, complicat, focalizare clară, artă digitală, 8 k

fantomă terifiantă, fantomă care plânge, față foarte detaliată, trăsături detaliate, fantezie, circuite, explozie, dramatic, complicat, elegant, foarte detaliat, pictură digitală, artstation, concept art, neted, focalizare clară, ilustrație, arta lui Gustave Dore, octane render

Frumoasă și jucăușă doamnă portret de libertate, art nouveau, fantezie, ținând o vază de Rene Lalique , elegant, foarte detaliat, focalizare clară, artă de Artgerm și Greg Rutkowski și WLOP

un portret al unei femei care este o reprezentare a culturii argentiniene, buenos aires, fantezie, complicat, extrem de detaliat, pictură digitală, artstation, concept art, neted, focalizare clară, ilustrație, artă de artgerm și greg rutkowski și alphonse mucha

Pictură de Greg Rutkowski, pe timp de noapte, un ulcior mare de ceramică cu ornamente de aur zboară sus în cerul albastru închis deasupra unei case mici albe sub un acoperiș de paie, stele pe cer, culori bogate și pitorești

petrecere cu pizza la un parc tematic, praf de lumină, magnific, aproape, detalii, focalizare ascuțită, elegant, foarte detaliat, ilustrație, de Jordan Grimmer și greg rutkowski și PiNe(パイネ) și 薯子Imoko și 香川悠作 și wlop și maya takamura, complicat, frumos, Trending artstation, pixiv, artă digitală

Fotografie de studio a sculpturii portret hiperrealist precis al lui timothy dalton, frumos simetric!!! față precisă față detaliată față proporții realiste, realizată din sticlă mată roz pe un piedestal de ron mueck și matthew barney și greg rutkowski, hiperrealism iluminat cinematografic detaliu șocant 8 k

Concluzie

După cum puteți vedea, generarea de imagini este o tehnică foarte impresionantă care a fost democratizată de modele precum DALL-E 2 sau MidJourney și Stable Diffusion.

Odată ce stăpâniți tehnicile de transformare a textului în imagine, puteți genera cu ușurință tone de imagini uimitoare într-o clipită.

Sper că v-a fost de folos! Dacă aveți întrebări despre cum să realizați cea mai stabilă difuzie, vă rugăm să nu ezitați să ne întrebați.

Julien Salinas
CTO la NLP Cloud