안정적인 확산으로 텍스트를 이미지로 효과적으로 사용하는 DALL-E 2 / MidJourney 대안

2022년 9월 2일

텍스트에서 이미지를 생성하기 위해 AI를 활용할 수 있습니다(텍스트에서 이미지로라고도 함). Stability AI의 Stable Diffusion은 이미지 생성을 위한 최고의 오픈 소스 AI 모델이며, DALL-E 2 또는 MidJourney를 대체할 수 있는 훌륭한 모델입니다. 하지만 이 모델을 제대로 사용하려면 약간의 연습이 필요하므로 Stable Diffusion으로 멋진 이미지를 생성하는 방법을 보여드리겠습니다!

DALL-E 2 및 미드저니

OpenAI에서 출시한 DALL-E 2는 텍스트를 이미지로 변환하는 강력한 AI 모델입니다. 하지만 이 글을 쓰는 현재로서는 아직 클로즈 베타 버전이므로 특별한 액세스 권한을 요청해야 사용할 수 있습니다.

DALL-E 2를 사용하면 실제 사진처럼 보이는 사실적인 이미지를 생성하거나 그림, 회화 또는 컴퓨터 생성 이미지처럼 보이는 추상적인 이미지를 생성할 수 있습니다.

MidJourney는 텍스트를 이미지로 변환하는 데에도 적합하며 특히 AI 아트 생성에 인기가 높습니다.

이러한 이미지는 어떻게 생성하나요? 자연어로 텍스트 지침을 만들면 됩니다. 다음은 몇 가지 예시입니다:

석양이 지는 미래 도시의 컨셉 아트입니다.

스테이블 디퓨전으로 생성한 해질녘 미래 도시의 콘셉트 아트

길거리에서 고릴라를 찍은 사진.

스테이블 디퓨전으로 생성한 거리의 고릴라 사진

안정적인 확산

스테이블 디퓨전은 오픈소스 텍스트-이미지 모델로서, Stability AI라는 회사가 연구자들이 만든 (여기에서 웹 사이트 보기).

스테이블 디퓨전은 DALL-E 2 및 미드저니와 동일한 성능에 도달한 최초의 오픈소스 AI 모델입니다. 응답 시간을 매우 짧게 유지하면서 정확한 결과를 반환합니다.

이제 NLP 클라우드에서 안정적인 확산을 사용할 수 있습니다! 하지만 이 훌륭한 AI 모델을 최대한 활용하려면 약간의 연습이 필요하며 첫 번째 결과에 실망할 수도 있습니다.

그렇기 때문에 이러한 텍스트-이미지 모델을 사용하는 방법에 대해 더 자세히 설명하는 것이 흥미로울 것이라고 생각했습니다.

순진한 접근 방식

처음에는 '자동차' 또는 '사자'와 같이 매우 간단한 지시를 사용할 수 있습니다. 그렇다고 해서 반드시 놀라운 결과가 나오는 것은 아닙니다. 다음은 몇 가지 예시입니다:

자동차

안정적인 확산으로 생성된 자동차

사자

사자, 안정적 확산에 의해 생성됨

나쁘지 않지만 훨씬 더 잘할 수 있습니다!

기술 선택

가장 쉽고 인상적으로 개선할 수 있는 방법은 이미지의 제작 기법을 선택하는 것입니다. 예를 들어 유화, 연필 드로잉, 컨셉 아트, 사진 등이 있습니다. 몇 가지 예를 살펴봅시다:

사자 연필 그림

스테이블 디퓨전으로 생성된 사자 연필 드로잉

겨울 호수의 유화

안정적 확산으로 생성된 겨울 호수의 유화 그림

사이버 펑크 자동차의 컨셉 아트

스테이블 디퓨전으로 제작한 사이버 펑크 자동차 컨셉 아트

특정 스타일을 따르는 아트를 순식간에 쉽게 생성할 수 있다는 점이 인상적이지 않나요?

스타일 선택

때로는 기법만으로는 생성하고자 하는 이미지를 설명하기에 충분하지 않을 수 있습니다. 이 경우 아티스트를 지정하면 도움이 될 수 있습니다! 다음은 몇 가지 예입니다:

클로드 모네가 만든 튤립밭

클로드 모네가 만든 튤립밭, 스테이블 디퓨전으로 생성됨

렘브란트가 그린 여인의 유화

렘브란트가 그린 여인의 유화, 스테이블 디퓨전으로 생성된 작품

아직 모르는 아티스트에 대해 조사해 볼 수 있는 좋은 기회입니다.

탐색

위의 예는 매우 유용할 수 있지만, 특정 키워드를 사용하면 더 나은 결과를 얻을 수 있습니다. Stability AI 팀은 다음 키워드 중 일부를 지침에 사용해 볼 것을 권장합니다:

매우 섬세한, 초현실주의, 아트 스테이션 트렌드, 삼원색, 부드럽고 선명한 초점, 매트, 우아한, 지금까지 본 가장 아름다운 이미지, 일러스트레이션, 디지털 페인트, 어둡고 우울한, 옥탄 렌더링, 8k, 4k, 워시 컬러, 선명하고 극적인 조명, 아름다운, 후처리, 오늘의 사진, 주변 조명, 서사시 구도입니다.

그 누구도 시도하지 않았던 놀라운 결과를 만들어내는 특별한 지침을 발견하게 될 것입니다!

또한 더 긴 지침도 자유롭게 작성할 수 있습니다. 반드시 한 문장을 고수할 필요는 없습니다. 예를 들어 한 문단 전체를 사용할 수도 있습니다.

아이디어가 필요하신 분들을 위해 몇 가지 흥미로운 사례를 소개합니다:

인간의 얼굴에 매우 상세한 미래 지향적 인 Apple iGlass 컴퓨터 안경, 사이버 펑크, 손 추적, 컨셉 아트, 캐릭터 아트, 스튜디오 번개, 밝은 색상, 복잡한, 걸작, 포토리얼리스틱, 초현실적, 선명한 초점, 고 대비, Artstation HQ, DeviantArt 트렌드, 8k UHD, 언리얼 엔진 5

빨간 기계 눈을 가진 검은 머리 사이보그 애니메이션 남자의 상세한 만화 일러스트 캐릭터 전신 초상화, 아트 스테이션, 디지털 아트, 4k 해상도, 디테일, 고품질, 선명한 초점, hq 아트웍, 미친 디테일, 컨셉 아트, 캐릭터 컨셉, 캐릭터 일러스트, 전신 일러스트, 시네마틱, 드라마틱 한 조명

멀리서 유성이 지구로 떨어지는 것을 멀리서 지켜 보는 절벽에 앉아있는 사이버 펑크 줄루 전사, Alena Aenami와 Android Jones와 Greg Rutkowski, 아트 스테이션에서 트렌드, 하이퍼 리얼리즘, 우아하고 양식화 된, 매우 상세한 디지털 아트, 8k 해상도, HD, 글로벌 조명, 광선 추적, 복사광, 볼륨 조명, 상세하고 복잡한 사이버 펑크 게토 환경, 옥탄, 캔버스에 오일, 광각, 동적 인물 사진으로 렌더링 됨

기계 신이 스스로를 재건하다, 판타지, d & d, 복잡한, 디테일 한, 기발한, 디테일 한, 아트 스테이션에서 유행하는, 아트 스테이션에서 유행하는, 매끄러운

토머 하누카와 에이티 가일란의 스타일로 림보를 통해 잃어버린 영혼을 안내하는 늙은 지혜로운 수도사, 생생한 색상, 아트 스테이션에서 유행하는 트렌드

날개를 가진 천사 역의 폴 베타니는 덩굴과 꽃과 이끼로 덮여 있고 아름다운 별장 앞에 서 있으며, 토마스 캔티와 토마스 킨케이드와 로스 트란의 디지털 그림, 아르누보, 분위기있는 조명, 아트 스테이션 트렌드

자동차 용 컨셉 아트 거대한 날카로운 스파이크, 시드 미드, 고품질 페인트

병원 밖에서 미국 옷을 입은 창백한 젊은 인도 의사, 초상화, 우아하고 복잡한, 디지털 페인팅, 아트 스테이션, 컨셉 아트, 부드럽고 날카로운 초점, 일러스트, 아트 세균과 그렉 럿코프스키와 알폰스 무하의 예술

해골 신, 클로즈업 초상화, 파워풀 한, 복잡한, 우아한, 체적 조명, 풍경, 디지털 페인팅, 매우 상세한, 아트 스테이션, 선명한 초점, 일러스트레이션, 컨셉 아트, 루안 지아, 스티브 맥커리

큰 폐허가 된 비행기 근처에서 파란색과 노란색 옷을 입은 우크라이나 소녀, 컨셉 아트, 아트 스테이션에서 유행하는, 매우 상세하고, 복잡하고, 선명한 초점, 디지털 아트, 8 k

끔찍한 부정한 우는 유령, 매우 상세한 얼굴, 상세한 특징, 판타지, 회로, 폭발, 극적인, 복잡한, 우아한, 매우 상세한, 디지털 페인팅, 아트 스테이션, 컨셉 아트, 부드러운, 선명한 초점, 일러스트, 구스타브 도레의 예술, 옥탄가 렌더링

아름답고 장난기 넘치는 자유의 여인 초상화, 아르누보, 판타지, 르네 랄리크의 꽃병을 들고 우아하고 매우 섬세하고 날카로운 초점, Artgerm과 Greg Rutkowski의 예술품 및 WLOP

아르헨티나 문화를 대표하는 여성의 초상화, 부에노스 아이레스, 판타지, 복잡하고 매우 상세한, 디지털 페인팅, 아트 스테이션, 컨셉 아트, 부드럽고 날카로운 초점, 일러스트레이션, ARTGERM과 그렉 럿코프스키와 알폰스 무하의 아트

그렉 루트코프스키의 그림, 밤에는 초가 지붕 아래의 작은 하얀 집, 하늘의 별, 풍부한 그림 같은 색채 위에 금 장식이 달린 큰 도자기 주전자가 밤에 짙은 푸른 하늘 높이 날아갑니다.

테마파크에서의 피자 파티, 가벼운 먼지, 웅장한, 클로즈업, 세부 사항, 선명한 초점, 우아한, 매우 상세한, 일러스트, 조던 그리머와 그렉 럿코프스키와 PiNe(パイネ)와 薯子이모코와 香川悠作과 wlop와 마야 타카무라, 복잡한, 아름다운, 트렌드 아트 스테이션, 픽시브, 디지털 아트

티모시 달튼의 초현실적 인 정확한 초상화 조각의 스튜디오 사진, 아름다운 대칭!! 얼굴 정확한 얼굴 세부 얼굴 사실적인 비율, 론 뮤크와 매튜 바니와 그렉 루트 코 스키의 받침대에 분홍색 젖빛 유리로 만든 초현실주의 시네마틱 조명 충격적인 디테일 8k

결론

보시다시피 이미지 생성은 DALL-E 2나 미드저니 및 스테이블 디퓨전과 같은 모델에 의해 대중화된 매우 인상적인 기술입니다.

텍스트를 이미지로 변환하는 기술을 익히면 눈 깜짝할 사이에 수많은 멋진 이미지를 쉽게 생성할 수 있습니다.

도움이 되셨기를 바랍니다! 가장 안정적인 확산을 위한 방법에 대해 궁금한 점이 있으면 언제든지 주저하지 마시고 문의해 주세요.

François
NLP 클라우드의 풀스택 엔지니어