Utilizzo efficace del testo per l'immagine con la diffusione stabile, l'alternativa DALL-E 2 / MidJourney

2 settembre 2022

È possibile sfruttare l'intelligenza artificiale per generare immagini a partire dal testo (noto anche come text to image). Stable Diffusion, di Stability AI, è il miglior modello di IA open-source per la generazione di immagini e un'ottima alternativa a DALL-E 2 o MidJourney. Ma il corretto utilizzo di questo modello richiede un po' di pratica, quindi vi mostriamo come generare immagini sorprendenti con Stable Diffusion!

DALL-E 2 e metà del viaggio

DALL-E 2, rilasciato da OpenAI, è un potente modello di intelligenza artificiale per la conversione del testo in immagini. Tuttavia, al momento in cui scriviamo, è ancora in fase di beta chiusa, il che significa che è necessario richiedere un accesso speciale per poterlo utilizzare.

Con DALL-E 2 è possibile generare immagini realistiche che assomigliano a una fotografia reale, oppure immagini più astratte che possono assomigliare a disegni, dipinti o immagini generate al computer.

MidJourney è anche un ottimo candidato per il text to image ed è particolarmente apprezzato per la generazione di arte AI.

Come si generano queste immagini? Semplicemente creando un'istruzione testuale in linguaggio naturale. Ecco un paio di esempi:

Concept art di una città futuristica al tramonto.

Concept art di una città futuristica durante il tramonto, generato da Stable Diffusion

Fotografia di un gorilla in strada.

Fotografia di un gorilla in strada, generata da Diffusione stabile

Diffusione stabile

Stable Diffusion è un modello open source di conversione del testo in immagini, creato da una società di ricercatori chiamata Stability AI. ricercatori chiamata Stability AI (vedi il loro sito web qui).

Stable Diffusion è il primo modello di intelligenza artificiale open-source che raggiunge le stesse prestazioni di DALL-E 2 e MidJourney. Fornisce risultati accurati mantenendo il tempo di risposta piuttosto basso.

Stable Diffusion è ora disponibile su NLP Cloud! Ma per sfruttare al meglio questo grande modello di intelligenza artificiale occorre un po' di pratica e i primi risultati potrebbero deludervi.

Per questo motivo abbiamo pensato che sarebbe stato interessante fornirvi maggiori dettagli su come utilizzare questi modelli di conversione del testo in immagini.

L'approccio ingenuo

A prima vista, si potrebbero utilizzare istruzioni molto semplici come "un'auto" o "un leone". Non è detto che questo restituisca risultati sorprendenti. Ecco alcuni esempi:

Una macchina

Un'auto, generata dalla Diffusione Stabile

Un leone

Un leone, generato dalla Diffusione Stabile

Non è male, ma possiamo fare molto meglio!

Scegliere una tecnica

Il miglioramento più semplice e di maggior impatto che si possa fare è selezionare una tecnica di creazione per la propria immagine. Ad esempio, potrebbe trattarsi di pittura a olio, disegno a matita, concept art, fotografia... Proviamo a fare qualche esempio:

Disegno a matita di un leone

Il disegno a matita di un leone, generato da Diffusione stabile

Un dipinto a olio di un lago in inverno

Un dipinto a olio di un lago in inverno, generato da Diffusione Stabile

Il concept art di un'auto cyberpunk

Un concept art di un'auto cyberpunk, generato da Stable Diffusion

È impressionante vedere come sia facile generare arte seguendo uno stile specifico in poco tempo, non è vero?

Scegliere uno stile

A volte una tecnica non è sufficiente per descrivere il tipo di immagine che si desidera generare. In questo caso, specificare un artista può essere utile! Ecco alcuni esempi:

Un campo di tulipani realizzato da Claude Monet

Un campo di tulipani realizzato da Claude Monet, generato da Diffusione stabile

Un dipinto a olio di una donna realizzato da Rembrandt

Un dipinto a olio di una donna realizzato da Rembrandt, generato da Diffusione Stabile

È una buona occasione per fare ricerche su artisti che non conoscete ancora.

Esplorare

Gli esempi di cui sopra possono essere molto utili, ma si può comunque fare meglio utilizzando alcune parole chiave specifiche. Il team di Stability AI consiglia di provare alcune delle seguenti parole chiave nelle vostre istruzioni:

Altamente dettagliata, surrealismo, trending su art station, schema di colori triadico, liscia, messa a fuoco nitida, opaca, elegante, l'immagine più bella mai vista, illustrazione, pittura digitale, scura, cupa, rendering ottantiano, 8k, 4k, colori slavati, nitida, illuminazione drammatica, bellissima, post elaborazione, immagine del giorno, illuminazione ambientale, composizione epica.

Senza dubbio scoprirete istruzioni speciali che nessuno ha mai provato prima di voi e che creano risultati sorprendenti!

Inoltre, sentitevi liberi di creare istruzioni più lunghe. Non dovete necessariamente limitarvi a una frase. Ad esempio, potete usare un intero paragrafo.

Se avete bisogno di idee, ecco alcuni esempi interessanti:

occhiali futuristici Apple iGlass altamente dettagliati sul volto di un essere umano, cyberpunk, tracciamento della mano, concept art, character art, studio lightning, colori brillanti, intricato, capolavoro, fotorealistico, iperrealistico, messa a fuoco nitida, contrasto elevato, Artstation HQ, DeviantArt trending, 8k UHD, Unreal Engine 5

Illustrazione manga dettagliata di un personaggio ritratto a corpo intero di un uomo anime cyborg dai capelli scuri che ha un occhio meccanico rosso, di tendenza su artstation, arte digitale, risoluzione 4 k, dettagliato, alta qualità, messa a fuoco nitida, opera d'arte hq, dettaglio pazzesco, concept art, concetto di personaggio, illustrazione di personaggio, illustrazione a corpo intero, cinema, illuminazione drammatica

un guerriero zulu cyberpunk seduto su una scogliera che osserva da lontano una meteora cadere sulla terra, di alena aenami e android jones e greg rutkowski, Trending on artstation, iperrealismo, arte digitale elegante, stilizzata, altamente dettagliata, risoluzione 8k, hd, illuminazione globale, ray tracing, luce radiante, illuminazione volumetrica, ambiente ghetto cyberpunk dettagliato e intricato, renderizzato in octane, olio su tela, grandangolo, ritratto dinamico

Dio macchina che si ricostruisce, fantasia, d & d, intricato, dettagliato, stravagante, dettagliato, di tendenza su artstation, di tendenza su artstation, liscio

Vecchio monaco saggio che guida un'anima perduta attraverso il limbo, nello stile di Tomer Hanuka e Atey Ghailan, colori vivaci, in tendenza su artstation

paul bettany come angelo con le ali è coperto di viti, fiori e muschio e si trova di fronte a un bellissimo cottage, un dipinto digitale di thomas canty e thomas kincade e ross tran, art nouveau, illuminazione d'atmosfera, di tendenza su artstation

concept art per un'auto con enormi punte affilate, dipinto da syd mead, alta qualità

Giovani medici indiani di bell'aspetto e pallidi che indossano abiti americani fuori da un ospedale, ritratto, elegante, intricato, pittura digitale, artstation, concept art, fluido, messa a fuoco, illustrazione, arte di artgerm e greg rutkowski e alphonse mucha

dio teschio, ritratto ravvicinato, potente, intricato, elegante, illuminazione volumetrica, scenario, pittura digitale, altamente dettagliato, artstation, messa a fuoco, illustrazione, concept art, ruan jia, steve mccurry

ragazza ucraina con vestiti blu e gialli vicino a un grande aereo in rovina, concept art, di tendenza su artstation, altamente dettagliata, intricata, messa a fuoco, arte digitale, 8 k

terrificante fantasma piangente, volto molto dettagliato, lineamenti dettagliati, fantasia, circuito, esplosione, drammatico, intricato, elegante, altamente dettagliato, pittura digitale, artstation, concept art, liscio, messa a fuoco nitida, illustrazione, arte di Gustave Dore, rendering ottantiano

Bellissimo e giocoso ritratto liberty di donna, art nouveau, fantasia, con in mano un vaso di Rene Lalique, elegante, altamente dettagliato, messa a fuoco nitida, arte di Artgerm e Greg Rutkowski e WLOP

ritratto di donna che rappresenta la cultura argentina, buenos aires, fantasia, intricato, altamente dettagliato, pittura digitale, artstation, concept art, fluido, messa a fuoco, illustrazione, arte di artgerm e greg rutkowski e alphonse mucha

Dipinto di Greg Rutkowski, di notte una grande brocca di ceramica con ornamenti d'oro vola alta nel cielo blu scuro sopra una piccola casa bianca sotto un tetto di paglia, stelle nel cielo, ricchi colori pittoreschi

pizza party in un parco a tema, polvere di luce, magnifico, primo piano, dettagli, messa a fuoco, elegante, altamente dettagliato, illustrazione, di Jordan Grimmer e greg rutkowski e PiNe(パイネ) e 薯子Imoko e 香川悠作 e wlop e maya takamura, intricato, bello, Trending artstation, pixiv, arte digitale

Fotografia in studio di ritratto iperrealistico accurato di timothy dalton, bellissima scultura simmetrica!!! viso accurato viso dettagliato proporzioni realistiche, realizzata in vetro smerigliato rosa su un piedistallo da ron mueck e matthew barney e greg rutkowski, iperrealismo cinematografico illuminazione scioccante dettaglio 8 k

Conclusione

Come si può vedere, la generazione di immagini è una tecnica di grande effetto che è stata democratizzata da modelli come DALL-E 2 o MidJourney e Stable Diffusion.

Una volta acquisita la padronanza delle tecniche di conversione del testo in immagine, è possibile generare facilmente tonnellate di immagini sorprendenti in un batter d'occhio.

Spero che l'abbiate trovato utile! Se avete domande su come realizzare la diffusione più stabile possibile, non esitate a contattarci. non esitate a chiedercelo.

Julien Salinas
CTO di NLP Cloud