Usando eficazmente o texto para a imagem com difusão estável, a alternativa DALL-E 2 / MidJourney

2 de Setembro, 2022

É possível aproveitar a IA para gerar imagens a partir de texto (também conhecida como texto para imagem). Stable Diffusion, por Stability AI, é o melhor modelo AI de código aberto para a geração de imagens, e uma grande alternativa ao DALL-E 2 ou MidJourney. Mas a utilização correcta deste modelo requer alguma prática, por isso vamos mostrar-lhe como gerar imagens espantosas com Stable Diffusion!

DALL-E 2 e MidJourney

DALL-E 2, lançado pela OpenAI, é um poderoso modelo de IA para texto à imagem. Mas ainda está em fase beta fechada a partir desta escrita, o que significa que é necessário pedir um acesso especial para o utilizar.

Com DALL-E 2 pode gerar imagens realistas que se pareçam com uma fotografia real, ou gerar imagens mais abstractas que podem parecer desenhos, pinturas, ou imagens geradas por computador.

MidJourney é também um grande candidato ao texto à imagem e é especialmente popular para a geração de arte AI.

Como é que se geram tais imagens? Simplesmente criando uma instrução de texto em linguagem natural. Aqui estão alguns exemplos:

Arte conceptual de uma cidade futurista durante o pôr-do-sol.

Arte conceptual de uma cidade futurista durante o pôr-do-sol, gerada pela Difusão Estável

Fotografia de um gorila na rua.

Fotografia de um gorila na rua, gerada pela Stable Diffusion

Difusão Estável

Stable Diffusion é um modelo de texto de código aberto para imagem, criado por uma empresa de investigadores chamados Stability AI (ver o seu sítio web aqui).

Stable Diffusion é o primeiro modelo AI de código aberto a atingir o mesmo desempenho que DALL-E 2 e MidJourney. Está a retornar resultados precisos, mantendo o tempo de resposta bastante baixo.

Stable Diffusion está agora disponível na NLP Cloud! Mas aproveitar ao máximo este grande modelo de IA requer alguma prática e pode ficar desapontado com os seus primeiros resultados.

É por isso que achámos que seria interessante dar-lhe mais pormenores sobre como utilizar estes textos para modelos de imagem.

A abordagem ingénua

À primeira vista, poderá querer usar instruções muito simples como "um carro", ou "um leão". Isto não traria necessariamente resultados surpreendentes. Aqui estão alguns exemplos:

Um carro

Um carro, gerado por Difusão Estável

Um leão

Um leão, gerado pela Difusão Estável

Isto não é mau, mas podemos fazer muito melhor!

Escolha Uma Técnica

A melhoria mais fácil e mais impressionante que pode fazer é seleccionar uma técnica de criação para a sua imagem. Por exemplo, pode ser pintura a óleo, desenho a lápis, arte conceptual, fotografia... Vamos tentar alguns exemplos:

Um desenho a lápis de um leão

Um desenho a lápis de um leão, gerado por Difusão Estável

Uma pintura a óleo de um lago no Inverno

Uma pintura a óleo de um lago no Inverno, gerada pela Stable Diffusion

Uma arte conceptual de um carro ciberpunk

Uma arte conceptual de um carro ciberpunk, gerada pela Stable Diffusion

Impressionante ver como é fácil gerar alguma arte seguindo um estilo específico em pouco tempo, não é?

Escolha um estilo

Por vezes, uma técnica não é suficiente para descrever o tipo de imagem que se gostaria de gerar. Nesse caso, a especificação de um artista pode ajudar! Aqui estão alguns exemplos:

Um campo de tulipas feito por Claude Monet

Um campo de tulipas feito por Claude Monet, gerado por Stable Diffusion

Uma pintura a óleo de uma mulher feita por Rembrandt

Uma pintura a óleo de uma mulher feita por Rembrandt, gerada por Stable Diffusion

É uma boa oportunidade para fazer algumas pesquisas sobre artistas que ainda não conhece.

Explorar

Os exemplos acima podem ser muito úteis, mas ainda se pode fazer melhor usando algumas palavras-chave específicas. A equipa de estabilidade AI recomenda que experimente algumas das seguintes palavras-chave nas suas instruções:

Altamente detalhado, surrealismo, tendência em estação de arte, esquema de cores triádicas, foco suave, nítido, fosco, elegante, a imagem mais bela jamais vista, ilustração, tinta digital, escuro, sombrio, render octano, 8k, 4k, cores lavadas, nítido, iluminação dramática, bonito, pós processamento, imagem do dia, iluminação ambiente, composição épica.

Sem dúvida que descobrirá instruções especiais que nunca ninguém tentou antes de si e que criam resultados espantosos!

Além disso, sinta-se à vontade para criar instruções mais longas. Não tem necessariamente de se cingir a uma frase. Pode usar um parágrafo inteiro em vez disso, por exemplo.

Se precisar de ideias, aqui estão alguns exemplos interessantes:

óculos de computador iGlass da Apple altamente detalhados e futuristas na cara do humano, cyberpunk, rastreio manual, arte conceptual, arte de personagens, iluminação de estúdio, cores brilhantes, intrincada, obra-prima, fotorealista, hiperrealista, foco aguçado, alto contraste, sede da Artstation, tendência DeviantArt, 8k UHD, Unreal Engine 5

Uma ilustração de mangá detalhada retrato de personagem de corpo inteiro de um anime ciborgue de cabelo escuro que tem um olho mecânico vermelho, tendência para a arte, arte digital, resolução 4 k, detalhada, de alta qualidade, foco aguçado, arte hq, detalhe insano, arte conceptual, conceito de personagem, ilustração de personagem, ilustração de corpo inteiro, cinematográfica, iluminação dramática

um guerreiro zulu cyberpunk sentado num penhasco a ver um meteoro cair à terra à distância, por alena aenami e androide jones e greg rutkowski, Tendência para a arte, hiperrealismo, arte digital elegante, estilizada, altamente detalhada, resolução 8k, hd, iluminação global, traçado de raios, luz radiante, iluminação volumétrica, ambiente de gueto cyberpunk detalhado e intrincado, renderizado em octano, óleo sobre tela, grande ângulo, retrato dinâmico

Máquina deus reconstruindo-se, fantasia, d & d, intrincada, detalhada, caprichosa, detalhada, tendência para a arte, tendência para a arte, suave

Velho sábio monge guiando uma Alma Perdida pelo Limbo, no estilo de Tomer Hanuka e Atey Ghailan, cores vibrantes, tendência para a arte

paul bettany como anjo com asas está coberto de vinhas e flores e musgo e de pé em frente a uma bela casa de campo, uma pintura digital de thomas canty e thomas kincade e ross tran, art nouveau, iluminação atmosférica, tendência para a arte

arte conceitual para um carro com enormes picos afiados, pintado por syd mead, de alta qualidade

Ansiosos e pálidos jovens médicos indianos com roupas americanas fora de um hospital, retrato, elegante, intrincado, pintura digital, artesanato, arte conceptual, foco suave, aguçado, ilustração, arte por artgerm e greg rutkowski e alphonse mucha

deus da caveira, fechar - retrato, poderoso, intrincado, elegante, iluminação volumétrica, cenário, pintura digital, altamente detalhado, arte, foco aguçado, ilustração, arte conceptual, ruan jia, steve mccurry

rapariga ucraniana com roupa azul e amarela perto do grande plano arruinado, arte conceptual, tendência para a arte, altamente detalhada, intrincada, foco aguçado, arte digital, 8 k

fantasma aterrador e profano, rosto muito detalhado, características detalhadas, fantasia, circuitos, explosão, dramático, intrincado, elegante, altamente detalhado, pintura digital, artesanato, arte conceptual, foco suave, nítido, ilustração, arte de Gustave Dore, octanagem

Retrato lindo e lúdico de senhora da liberdade, art nouveau, fantasia, segurando um vaso de René Lalique , elegante, altamente detalhado, foco aguçado, arte de Artgerm e Greg Rutkowski e WLOP

um retrato de uma mulher que é uma representação da cultura argentina, buenos aires, fantasia, intrincada, altamente detalhada, pintura digital, arte de concepção, arte de conceitos, foco suave, aguçado, ilustração, arte por artgerm e greg rutkowski e alphonse mucha

Pintura de Greg Rutkowski, à noite um grande jarro de cerâmica com ornamentos dourados voa alto no céu azul escuro da noite sobre uma pequena casa branca sob um telhado de colmo, estrelas no céu, cores ricas e pitorescas

festa de pizza num parque temático, pó leve, magnífico, de perto, detalhes, foco aguçado, elegante, altamente detalhado, ilustração, por Jordan Grimmer e greg rutkowski e PiNe(パイネ) e 薯子Imoko e 香川悠作 e wlop e maya takamura, intrincado, bonito, Trending artstation, pixiv, arte digital

Fotografia de estúdio de retrato exacto hiperrealista de timothy dalton, belo simétrico!! rosto preciso face face detalhada proporções realistas, feito de vidro fosco rosa num pedestal por ron mueck e matthew barney e greg rutkowski, iluminação cinematográfica hiperrealista detalhe chocante 8 k

Conclusão

Como se pode ver, a geração de imagem é uma técnica muito impressionante que foi democratizada por modelos como DALL-E 2 ou MidJourney e Stable Diffusion.

Uma vez dominadas as técnicas de texto à imagem, pode facilmente gerar toneladas de imagens surpreendentes num piscar de olhos.

Espero que o tenha achado útil! Se tiver algumas perguntas sobre como fazer a Difusão mais Estável, por favor não hesite em perguntar-nos.

Julien Salinas
CTO na NLP Cloud