安定した拡散でテキストを画像に効果的に使用する、DALL-E 2 / MidJourneyの代替案

2022年9月2日

テキストから画像を生成するために、AIを活用することが可能です（text to imageとも呼ばれます）。Stability AIによるStable Diffusionは、画像生成のための最高のオープンソースAIモデルであり、DALL-E 2やMidJourneyの素晴らしい代替品です。しかし、このモデルを適切に使用するには、ある程度の練習が必要です。そこで、Stable Diffusionを使って素晴らしい画像を生成する方法をご紹介しましょう。

DALL-E 2とMidJourney

OpenAIがリリースした「DALL-E 2」は、テキストから画像への変換を行う強力なAIモデルです。しかし、この記事を書いている時点ではまだクローズドベータ版であり、使用するには特別なアクセス権を求める必要があることを意味します。

DALL-E 2では、実際の写真のようなリアルな画像を生成することも、絵や絵画、CGのような抽象的な画像を生成することも可能です。

MidJourneyはテキストから画像への変換も大得意で、特にAIアートの生成に人気があります。

そのような画像をどのように生成するのでしょうか。それは、自然言語によるテキスト命令を作るだけです。いくつか例を挙げてみましょう。

夕暮れ時の近未来都市のコンセプトアート。

Stable Diffusionで生成した夕暮れ時の未来都市のコンセプトアート。

路上にいるゴリラを撮影した写真。

Stable Diffusionによって生成された、路上のゴリラの写真。

安定した拡散

Stable Diffusionは、Stability AIという研究者の会社が作ったオープンソースのテキストから画像への変換モデルです。によって作成されたオープンソースのテキストから画像への変換モデルで、Stability AI (ウェブサイトはこちら).

Stable Diffusionは、DALL-E 2やMidJourneyと同性能を達成した初のオープンソースAIモデルです。応答時間を大幅に短縮しながら、正確な結果を返しています。

NLPクラウドでStable Diffusionが利用可能になりました!しかし、この素晴らしいAIモデルを最大限に活用するには、いくつかの練習が必要で、最初の結果にはがっかりするかもしれません。

そこで、これらのテキストから画像への変換モデルの使用方法について、より詳しくお伝えすることができればと考えました。

ナイーブなアプローチ

一見すると、「車」とか「ライオン」とか、とてもシンプルな命令を使いたくなるかもしれません。この場合、必ずしも驚くべき結果が得られるとは限りません。以下に例を挙げます。

A車

安定した拡散により生成された車。

ライオン

Stable Diffusionで生成されたライオン。

これは悪くないが、もっといいものができるはずだ。

テクニックを選ぶ

最も簡単で印象的な改善策は、イメージに合った制作手法を選択することです。例えば、油絵、鉛筆画、コンセプトアート、写真...などです。いくつか例を挙げてみましょう。

鉛筆で描かれたライオンの絵

鉛筆で描かれたライオンの絵（Stable Diffusionで生成されたもの

冬の湖を描いた油絵

Stable Diffusionで生成された冬の湖の油絵

サイバーパンクなクルマのコンセプトアート

Stable Diffusionによって生成されたサイバーパンクカーのコンセプトアート。

特定のスタイルに沿ったアートが、あっという間に出来上がるのは感動的ですね。

スタイルを選ぶ

生成したいイメージを表現するのに、技法だけでは不十分な場合があります。その場合は、アーティストを指定するのが有効です!以下はその例です。

クロード・モネが描いたチューリップ畑

Stable Diffusionで生成したクロード・モネのチューリップ畑。

レンブラントが描いた女性の油絵

Stable Diffusionで生成されたレンブラント作の女性の油彩画

まだ知らないアーティストをリサーチする良い機会です。

エクスペリエンス

上記の例は非常に便利ですが、いくつかの特定のキーワードを使用することで、さらに良い結果を得ることができます。安定性AIチームは、以下のキーワードのいくつかを指示で試してみることをお勧めします。

高精細、シュールレアリズム、アートステーションのトレンド、トライアディック配色、スムーズ、シャープフォーカス、マット、エレガント、今まで見た中で最も美しい画像、イラスト、デジタルペイント、暗い、陰鬱、オクタンレンダー、8k、4k、ウォッシュドカラー、シャープ、ドラマチックライティング、美しい、ポストプロセス、今日の写真、環境照明、叙事詩的構図。

誰も試したことのないような、驚くべき結果を生み出す特別な指示を発見できるに違いありません。

また、長い説明文も自由に作成してください。必ずしも1文にこだわる必要はありません。例えば、段落を丸ごと使ってもいいのです。

アイデアが必要なら、ここに面白い例があります。

非常に詳細な未来的なApple iGlassコンピュータメガネの人間の顔、サイバーパンク、ハンドトラッキング、コンセプトアート、キャラクターアート、スタジオ照明、明るい色、複雑な、傑作、フォトリアル、超リアル、シャープフォーカス、ハイコントラスト、アートステーションHQ、DeviantArtトレンド、8k UHD、Unreal Engine 5。

赤い機械的な目を持つ黒髪のサイボーグアニメ男の詳細な漫画イラストキャラクター全身像、artstationのトレンド、デジタルアート、4K解像度、詳細、高品質、シャープフォーカス、HQアートワーク、非常識な詳細、コンセプトアート、キャラクターコンセプト、キャラクターイラスト、全身イラスト、映画のような、劇的なライティング

崖の上に座って流星が地球に落ちるのを遠くから見ているサイバーパンクのズールー族の戦士、Alena AenamiとAndroid JonesとGreg Rutkowskiによる、Trending on artstation、ハイパーリアリズム、優雅、様式化、高詳細デジタルアート、8K解像度、HD、グローバルイルミネーション、レイトレーシング、放射光、ボリューム照明、詳細かつ複雑なサイバーパンクゲットの環境、octaneでのレンダー、キャンバス、広角、動的ポートレイト。

機械神が自らを再生する, ファンタジー, d & d, 複雑な, 細かい, 気まぐれな, アートステーションでトレンド, 滑らかな

迷える魂を導く老賢者、Tomer HanukaとAtey Ghailanのスタイル、鮮やかな色彩、artstationの動向

羽の生えた天使のポール・ベタニーは、つる植物と花と苔に覆われ、美しいコテージの前に立っています。

巨大なトゲを持つ車のコンセプトアート、Syd Meadによるペイント、高画質

病院の外でアメリカンな服を着ている不安そうなイケメンの若いインド人医師、ポートレート、エレガント、複雑、デジタルペインティング、アートステーション、コンセプトアート、滑らか、シャープフォーカス、イラスト、アートガームとグレッグ・ラトコウスキーとアルフォンス・ムチャの作品。

髑髏の神様, クローズアップの肖像, 迫力, 複雑, エレガント, ボリューム感のある照明, 風景, デジタル絵画, 極めて細かい, アートステーション, シャープフォーカス, イラスト, コンセプトアート, ruan jia, steve mccurry.

廃墟の飛行機の近くにいる青と黄色の服を着たウクライナの少女、コンセプトアート、artstationのトレンド、非常に詳細、複雑、シャープフォーカス、デジタルアート、8 k

恐ろしい穢れた泣く幽霊、非常に詳細な顔、詳細な特徴、ファンタジー、回路、爆発、劇的、複雑、優雅、非常に詳細、デジタル絵画、アートステーション、コンセプトアート、滑らか、シャープフォーカス、イラスト、Gustave Doreによるアート、オクタンレンダー。

ルネ・ラリックの花瓶を持つ、美しく遊び心のある女性の肖像画、アールヌーボー、ファンタジー、エレガント、非常に詳細、シャープフォーカス、Artgerm と Greg Rutkowski と WLOP によるアート。

アルゼンチンの文化を表現した女性の肖像画、ブエノスアイレス、ファンタジー、複雑、高精細、デジタルペインティング、アートステーション、コンセプトアート、滑らか、シャープフォーカス、イラスト、アートガームとグレッグ・ラトコウスキーとアルフォンス・ムチャによる作品。

グレッグ・ラトコウスキーによる絵画、夜、藁葺き屋根の小さな白い家の上に、金の装飾が付いた大きな陶器の水差しが、夜の紺色の空に高く舞い上がり、空には星、豊かで絵のような色彩。

テーマパークのピザパーティー、光の粉、壮大、クローズアップ、ディテール、シャープフォーカス、エレガント、非常に詳細、イラスト、Jordan Grimmer と Greg Rutkowski と PiNe(Paine) と薯子Imoko と香川悠作と wlop と Maya takamura による、複雑な、美しい、Trending Artstation, pixiv, digital Art。

超現実的な正確な肖像彫刻のスタジオ写真ティモシーダルトン、美しい対称！！顔正確な顔詳細顔の現実的な割合、ロンMueckとマサチューバーニーとグレッグRutkowskiによって台座にピンクのすりガラス製、超現実主義の映画の照明衝撃詳細8Kを。

結論

このように、画像生成はDALL-E 2やMidJourney、Stable Diffusionといったモデルによって民主化された、非常に印象的な技術です。

テキストから画像に変換するテクニックをマスターすれば、あっという間に素晴らしい画像を大量に生成することができます。

お役に立ったでしょうか？Stable Diffusionの作り方について、ご不明な点がありましたらご遠慮なくお問い合わせください。

Julien Salinas
NLPクラウド社CTO