Utilizar eficazmente el texto a la imagen con difusión estable, la alternativa de DALL-E 2 / MidJourney

Es posible aprovechar la IA para generar imágenes a partir de texto (también conocido como text to image). Stable Diffusion, de Stability AI, es el mejor modelo de IA de código abierto para la generación de imágenes, y una gran alternativa a DALL-E 2 o MidJourney. Pero usar correctamente este modelo requiere algo de práctica, así que vamos a mostrarte cómo generar imágenes increíbles con Stable Diffusion.

DALL-E 2 y MidJourney

DALL-E 2, lanzado por OpenAI, es un potente modelo de IA para la conversión de texto en imagen. Pero en el momento de escribir este artículo todavía está en beta cerrada, lo que significa que hay que pedir un acceso especial para utilizarlo.

Con DALL-E 2 puedes generar imágenes realistas que parezcan una fotografía real, o generar imágenes más abstractas que pueden parecer dibujos, pinturas o imágenes generadas por ordenador.

MidJourney también es un gran candidato para la conversión de texto en imagen y es especialmente popular para la generación de arte de IA.

¿Cómo se generan esas imágenes? Simplemente creando una instrucción de texto en lenguaje natural. He aquí un par de ejemplos:

Arte conceptual de una ciudad futurista durante la puesta de sol.

Arte conceptual de una ciudad futurista durante la puesta de sol, generado por Stable Diffusion

Fotografía de un gorila en la calle.

Fotografía de un gorila en la calle, generada por Stable Diffusion

Difusión estable

Stable Diffusion es un modelo de texto a imagen de código abierto, creado por una empresa de investigadores llamada Stability AI (vea su sitio web aquí).

Stable Diffusion es el primer modelo de IA de código abierto que alcanza el mismo rendimiento que DALL-E 2 y MidJourney. Ofrece resultados precisos a la vez que mantiene un tiempo de respuesta bastante bajo.

La difusión estable ya está disponible en NLP Cloud. Pero sacar el máximo partido a este gran modelo de IA requiere algo de práctica y puede que los primeros resultados te decepcionen.

Por eso hemos pensado que sería interesante darle más detalles sobre cómo utilizar estos modelos de texto a imagen.

El enfoque ingenuo

A primera vista, es posible que quiera utilizar instrucciones muy sencillas como "un coche", o "un león". Esto no necesariamente devolverá resultados sorprendentes. He aquí algunos ejemplos:

Un coche

Un coche, generado por la difusión estable

Un león

Un león, generado por la difusión estable

No está mal, pero podemos hacerlo mucho mejor.

Elija una técnica

La mejora más fácil e impresionante que puede hacer es seleccionar una técnica de creación para su imagen. Por ejemplo, puede ser pintura al óleo, dibujo a lápiz, arte conceptual, fotografía... Probemos algunos ejemplos:

Un dibujo a lápiz de un león

Un dibujo a lápiz de un león, generado por Stable Diffusion

Un óleo de un lago en invierno

Una pintura al óleo de un lago en invierno, generada por difusión estable

Un concept art de un coche ciberpunk

Un concept art de un coche ciberpunk, generado por Stable Diffusion

Es impresionante ver lo fácil que es generar un arte siguiendo un estilo específico en poco tiempo, ¿verdad?

Elija un estilo

A veces, una técnica no es suficiente para describir el tipo de imagen que se desea generar. En ese caso, especificar un artista puede ayudar. He aquí algunos ejemplos:

Un campo de tulipanes realizado por Claude Monet

Un campo de tulipanes realizado por Claude Monet, generado por Stable Diffusion

Una pintura al óleo de una mujer realizada por Rembrandt

Una pintura al óleo de una mujer realizada por Rembrandt, generada por Difusión Estable

Es una buena oportunidad para investigar sobre artistas que aún no conoces.

Explore

Los ejemplos anteriores pueden ser muy útiles, pero aún puedes mejorarlos utilizando algunas palabras clave específicas. El equipo de Stability AI le recomienda que pruebe algunas de las siguientes palabras clave en sus instrucciones:

Altamente detallado, surrealismo, trending on art station, esquema de color triádico, suave, enfoque nítido, mate, elegante, la imagen más bella jamás vista, ilustración, pintura digital, oscura, sombría, render de octano, 8k, 4k, colores lavados, nítida, iluminación dramática, hermosa, posprocesamiento, imagen del día, iluminación ambiental, composición épica.

No hay duda de que descubrirá instrucciones especiales que nadie ha probado antes que usted y que crean resultados sorprendentes.

Además, siéntase libre de crear instrucciones más largas. No tiene que limitarse necesariamente a una frase. Puedes utilizar un párrafo entero, por ejemplo.

Si necesitas ideas, aquí tienes algunos ejemplos interesantes:

altamente detallado futurista Apple iGlass gafas de ordenador en la cara de los seres humanos, cyberpunk, seguimiento de la mano, el arte conceptual, el arte de los personajes, los rayos de estudio, los colores brillantes, intrincado, obra maestra, fotorrealista, hiperrealista, enfoque nítido, alto contraste, Artstation HQ, DeviantArt tendencia, 8k UHD, Unreal Engine 5
Una ilustración manga detallada de un personaje de cuerpo entero de un hombre anime cyborg de pelo oscuro que tiene un ojo mecánico rojo, trending on artstation, arte digital, resolución 4 k, detallada, alta calidad, enfoque nítido, obra de arte hq, detalle insano, arte conceptual, concepto de personaje, ilustración de personaje, ilustración de cuerpo entero, cinematográfico, iluminación dramática
un guerrero zulú cyberpunk sentado en un acantilado viendo caer un meteorito a la tierra desde la distancia, por alena aenami y android jones y greg rutkowski, Trending on artstation, hiperrealismo, elegante, estilizado, arte digital altamente detallado, resolución 8k, hd, iluminación global, trazado de rayos, luz radiante, iluminación volumétrica, detallado e intrincado entorno de gueto cyberpunk, renderizado en octano, óleo sobre lienzo, gran angular, retrato dinámico
Dios máquina reconstruyéndose, fantasía, d & d, intrincado, detallado, caprichoso, detallado, trending on artstation, trending on artstation, suave
Viejo monje sabio guiando a un alma perdida por el limbo, al estilo de Tomer Hanuka y Atey Ghailan, colores vibrantes, tendencia en artstation
paul bettany como ángel con alas está cubierto de vides y flores y musgo y de pie delante de una hermosa casa de campo, una pintura digital por thomas canty y thomas kincade y ross tran, art nouveau, iluminación atmosférica, trending on artstation
arte conceptual para un coche enorme picos afilados, pintado por syd mead, de alta calidad
Ansiosos médicos indios jóvenes y pálidos con ropa americana fuera de un hospital, retrato, elegante, intrincado, pintura digital, artstation, arte conceptual, suave, enfoque nítido, ilustración, arte de artgerm y greg rutkowski y alphonse mucha
dios de la calavera, retrato de cerca, poderoso, intrincado, elegante, iluminación volumétrica, escenario, pintura digital, muy detallado, artstation, enfoque nítido, ilustración, arte conceptual, ruan jia, steve mccurry
chica ucraniana con ropa azul y amarilla cerca de gran avión en ruinas, arte conceptual, trending en artstation, muy detallado, intrincado, enfoque nítido, arte digital, 8 k
terrorífico fantasma que llora, rostro muy detallado, rasgos detallados, fantasía, circuitos, explosión, dramático, intrincado, elegante, muy detallado, pintura digital, artstation, arte conceptual, suave, enfoque nítido, ilustración, arte de Gustave Dore, octane render
Hermoso y juguetón retrato de la libertad de la señora, el arte nouveau, la fantasía, la celebración de un jarrón de René Lalique , elegante, muy detallada, el enfoque nítido, el arte de Artgerm y Greg Rutkowski y WLOP
retrato de una mujer que es una representación de la cultura argentina, buenos aires, fantasía, intrincado, muy detallado, pintura digital, artstation, concept art, suave, enfoque nítido, ilustración, arte de artgerm y greg rutkowski y alphonse mucha
Pintura de Greg Rutkowski, por la noche una gran jarra de cerámica con adornos de oro vuela alto en el cielo azul oscuro de la noche por encima de una pequeña casa blanca bajo un techo de paja, estrellas en el cielo, ricos colores pintorescos
fiesta de pizza en un parque temático, polvo de luz, magnífico, primer plano, detalles, enfoque nítido, elegante, muy detallado, ilustración, por Jordan Grimmer y greg rutkowski y PiNe(パイネ) y 薯子Imoko y 香川悠作 y wlop y maya takamura, intrincado, hermoso, Trending artstation, pixiv, Arte digital
Fotografía de estudio de escultura de retrato exacto hiperrealista de timothy dalton, hermoso simétrico!! cara exacta cara detallada proporciones realistas, hecho de vidrio esmerilado rosa en un pedestal por ron mueck y matthew barney y greg rutkowski, hiperrealismo iluminación cinematográfica detalle impactante 8 k

Conclusión

Como puedes ver, la generación de imágenes es una técnica impresionante que se ha democratizado con modelos como DALL-E 2 o MidJourney y Stable Diffusion.

Una vez que domines las técnicas de conversión de texto en imagen, podrás generar fácilmente toneladas de imágenes sorprendentes en un abrir y cerrar de ojos.

Espero que le haya resultado útil. Si tienes alguna pregunta sobre cómo hacer la difusión más estable, por favor no dudes en preguntarnos.

Julien Salinas
CTO en NLP Cloud