生成AIの画像生成を極める！プロンプトの基本と活用テクニック

2024年7月16日

みなさん、こんにちは。今回は、最近急速に注目を集めている「生成AI（ジェネレーティブAI）」について、特に画像生成に焦点を当てて詳しくお話ししていきたいと思います。

生成AIの世界では、「プロンプト」という言葉をよく耳にすると思います。このプロンプトの使い方次第で、生成される画像が大きく変わってくるんです。今回は、そんなプロンプトの基本から、代表的なサービス別の特徴、そして上手な活用法まで、じっくりと解説していきます。

それでは、さっそく深掘りしていきましょう！

生成AIとプロンプトの基本を押さえよう

生成AI（ジェネレーティブAI）って何？

まずは、生成AIについて簡単におさらいしておきましょう。

生成AIは、日本語では「生成系AI」や「生成AI」とも呼ばれています。その名の通り、AIがさまざまなコンテンツを生成する技術のことです。2022年後半から一気に注目を集めるようになりました。

みなさんもご存知の通り、ChatGPTも生成AIの一種です。でも、生成AIができることは文章を書くだけではありません。音楽、画像、動画、ゲーム、アプリ、サイト、プログラムコード、さらには構造化データまで、本当に幅広いコンテンツを生成できるんです。

今回は特に、画像生成AIに焦点を当てて話を進めていきますね。

プロンプトって何？なぜ重要なの？

さて、ここで重要になってくるのが「プロンプト」です。

プロンプトは、簡単に言えば「AIへの指示」のことです。画像生成AIの場合、どんな画像を生成してほしいのか、その方向性を定める指示情報がプロンプトになります。

面白いことに、生成AIが「魔法」のようにコンテンツを生み出すので、プロンプトのことを「呪文」と呼ぶ人もいるんですよ。

プロンプトは通常、テキスト形式で入力します。例えば、「夕暮れの山並みの風景」や「未来の都市のビル群」といった具合です。でも、中には既存の画像をプロンプトとして使えるサービスもあります。その場合、入力した画像のスタイルやテーマを元に、新しい画像を生成してくれるんです。

このプロンプトの内容によって、生成されるコンテンツの特性が大きく変わってきます。だからこそ、プロンプトの使い方がとても重要なんです。

プロンプトエンジニアリングって聞いたことある？

最近では、「プロンプトエンジニアリング」という言葉もよく聞くようになりました。これは、AIに対する適切な指示、つまりプロンプトを設計することを指します。この仕事に携わる専門家のことを「プロンプトエンジニア」と呼びます。

生成AIは、明確で具体的なプロンプトを与えられるほど、期待により近い出力を実現できます。例えば、単に「犬の絵」とだけ入力するよりも、「白いチワワが砂浜で遊んでいる絵」と具体的に指示したほうが、イメージ通りの画像が生成される可能性が高くなるんです。

プロンプトエンジニアは、こうした生成AIの特性を理解し、より質の高いコンテンツを出力させるための重要な役割を担っています。AIと人間の協調が今後ますます重要になってくる中で、プロンプトエンジニアリングの需要も高まっていくでしょう。

代表的な画像生成AIサービスとそのプロンプトの特徴

さて、ここからは代表的な画像生成AIサービスについて、それぞれのプロンプトの特徴を見ていきましょう。

Stable Diffusion：詳細なプロンプトに強い

まず紹介するのは、「Stable Diffusion（ステイブル・ディフュージョン）」です。

Stable Diffusionは、2022年にスタートアップ企業Stability AIが公開した画像生成AIモデルです。画像生成AIの中でも最も有名で、高性能かつ写実的な表現が得意なサービスとして知られています。

Stable Diffusionの特徴は、詳細なプロンプトに対する高い反応性です。英単語をいくつか入力するだけでも画像を生成できますが、より細かい指示を出すことで、イメージにより近い画像を生成できます。

Stable Diffusionの公式プロンプトガイドラインでは、プロンプトを以下の4つの要素に分解しています：

核となるプロンプト
スタイル
アーティスト名
仕上げのタッチ

「核となるプロンプト」は、主題やテーマ、人物などを指します。例えば、「Panda（パンダ）」や「A warrior with a sword（剣を持った戦士）」、「Skeleton（骨格）」といった具合です。

「スタイル」は、作成するイメージの全体的な表現方法を示します。「Oil painting（油絵）」や「Pencil drawing（鉛筆画）」などが該当します。

「アーティスト名」を含めることで、特定のアーティストの作風を模倣するよう指示できます。例えば、「in the style of Pablo Picasso（パブロ・ピカソの作風で）」といった使い方ができます。

最後の「仕上げのタッチ」は、プラスアルファの要素を加えて、思い描いた通りの形に仕上げるための指示です。例えば「trending on artstation」と入れると、洗練されたアーティスティックな雰囲気を出すことができます。

これらの要素を組み合わせることで、より独特で細かいニュアンスを反映した画像を生成することができるんです。

Midjourney：少ない単語でも高品質な画像を生成

次に紹介するのは、「Midjourney（ミッドジャーニー）」です。

Midjourneyは、テキストから画像を作成するAIモデルで、人気チャットサービスDiscordを通じて利用できます。サンフランシスコに本拠地を置くMidjourney社が提供しているサービスで、誰でも簡単に利用できる点が人気の秘密です。

Midjourneyの特徴は、少ない単語のプロンプトでも比較的高品質な画像を生成できる点です。しかし、もちろん単語の選択とプロンプトの長さは重要です。

例えば、「廃墟と化した未来都市に立つ一本の緑豊かな樹」といった具体的な描写を入力することで、より独自でエキサイティングな画像を生成できます。プロンプトの長さは短すぎず、長すぎず、作りたいコンセプトに対して適切な単語を使用することが大切です。

Midjourneyの公式ドキュメントによると、プロンプト内の単語やフレーズは、「トークン」と呼ばれる小さな単位に分解されます。これらのトークンを学習データと比較することで、画像の生成に使用しているんです。

作りたい画像を明確に指定し、具体的に表現することが重要です。詳細な部分の記述を加えることで、意図した通りの画像を得やすくなります。また、具体的な数字や集合名詞を用いるとより良い結果が得られることもあります。

DALL·E 3：高い言語理解力と既存イラストベースの生成が可能

最後に紹介するのは、「DALL·E 3（ダリ・スリー）」です。

DALL·E 3は、アメリカの非営利研究団体OpenAIが発表した画像生成AIモデルです。高い言語理解力と既存のイラストをベースにした画像生成が特徴です。

DALL·E 3は、具体的な単語の使用を好みます。なるべく具体的な単語を複数入力することで、思い通りの画像に近づけることができます。また、既存のイラストをベースとして画像を生成することも可能です。例えば、生成された画像の一部を消去したり、生成した画像に描かれていない部分を追加したりといったことができるんです。

DALL·E 3の高い言語理解力により、非常に精度の高い画像生成が可能です。日本語のプロンプトでも画像の生成は可能ですが、精度が低くなる傾向があるため、英語のプロンプトを使用するのがおすすめです。

具体的なキーワードをプロンプトに含めることができるのも特徴です。例えば、シャッタースピードやレンズの選択、「高品質」や「トレンド」といったキーワードも利用できます。また、形容詞や副詞、年代の定義も有効です。「1924年」や「90年代後半」といった使い方ができるんです。

DALL·E 3は、ChatGPTに組み込まれたウェブサービスとして利用可能で、ブラウザさえあればPC、タブレット、スマートフォンから簡単に利用できます。

画像生成AIのプロンプトを上手に作成するコツ

ここまで、代表的な画像生成AIサービスとそのプロンプトの特徴を見てきました。では、実際にプロンプトを作成する際のコツについて、もう少し詳しく見ていきましょう。

明確で具体的な指示を心がけよう

プロンプトを作成する上で最も重要なのは、明確で具体的な指示を心がけることです。あいまいな言葉は避けて、できるだけ明確な言葉を使用しましょう。

具体的なプロンプトの作成方法として、以下の点を意識してみてください：

内容や目的を明確に記述する
具体的に詳細を書く
明確な言葉を使い、あいまいな単語はなるべく使わない
コンテキスト（文章の前後関係）を追加する
プロンプトの長さを考慮する

例えば、「きれいな風景」というプロンプトよりも、「雪をかぶった富士山を背景に、満開の桜の木々が並ぶ春の湖畔の風景」というプロンプトのほうが、より具体的で明確な指示となります。

また、文章の前後関係（コンテキスト）を追加することで、より高精度な結果が得られることがあります。「昭和30年代の日本の田舎の風景。縁側で涼む家族。蝉の鳴き声が聞こえそうな夏の昼下がり。」というように、状況や雰囲気を補足的に説明することで、AIがより豊かなイメージを生成しやすくなります。

参考例をマネしつつ、微調整と反復試行を重ねよう

プロンプトの作成に慣れていない場合は、既存のプロンプト例を参考にするのも良い方法です。ただし、そのまま真似するだけでなく、自分の求める画像に合わせて微調整を加えながら、何度も試行錯誤を重ねることが大切です。

プロンプトの微妙な違いが、出力結果の表現や詳細な部分に大きな影響を与えることがあります。同じアイデアでも、少し異なるプロンプトを使用することで全く異なる結果が得られることも珍しくありません。

例えば、「夕暮れの海辺」というプロンプトから始めて、「オレンジ色に染まった夕暮れの海辺。波打ち際に立つ一人の人影。」「燃えるような赤い夕日が沈む海辺。砂浜に並ぶヤシの木のシルエット。」など、少しずつ表現を変えながら試してみましょう。

このように、少しずつ表現を変えながら何度も生成を試みることで、自分の求める画像に近づけていくことができます。

強調や制約条件をうまく活用しよう

プロンプトには、強調や制約条件をうまく活用することも効果的です。特定の要素を画像で強調したい場合や、特定の制約条件を設けたい場合は、それを明確に指示します。

多くの画像生成AIでは、「ポジティブプロンプト」と「ネガティブプロンプ

ト」という概念があります。ポジティブプロンプトでは生成画像に含めてほしい要素を指定し、ネガティブプロンプトでは含めてほしくない要素を指定します。

例えば、「美しい日本庭園。石灯籠と紅葉。」というポジティブプロンプトに対して、「人物、現代的な建物、看板」というネガティブプロンプトを設定することで、より意図した画像に近づけることができます。

また、一部のサービスでは、括弧や特殊記号を使って特定の要素を強調したり、重みづけしたりすることができます。例えば、Stable Diffusionでは「(keyword)」のように括弧で囲むことで、その要素の重要度を上げることができます。

「美しい(日本庭園)。(石灯籠)と(紅葉)。」というように括弧を使うことで、それぞれの要素がより強調された画像が生成されやすくなります。

このように、強調や制約条件の指示を適切に活用することで、プロンプトはより明確になり、求める結果に近い画像が生成される可能性が高まります。

画像生成AIを活用する際の注意点

画像生成AIは非常に便利なツールですが、使用する際にはいくつか注意すべき点があります。ここでは、特に重要な点をいくつか紹介します。

著作権と肖像権への配慮

生成された画像の著作権や、画像に写る人物の肖像権については、まだ法的にグレーな部分が多くあります。特に商用利用する場合は、各サービスの利用規約をよく確認し、必要に応じて専門家に相談することをおすすめします。

また、特定の人物や作品を模倣するようなプロンプトは避けるべきです。代わりに、「〇〇風の」「〇〇に似た雰囲気の」といった表現を使うなど、配慮が必要です。

AIの限界を理解する

画像生成AIは非常に高性能になってきていますが、それでも人間の創造性や感性に完全に取って代わることはできません。AIは学習データに基づいて画像を生成するため、全く新しい概念や極めて具体的な指示には対応できないこともあります。

また、細かいディテールや論理的整合性について、人間の目で確認し、必要に応じて修正を加えることが重要です。例えば、人物の手の指の数が合っていなかったり、物理法則に反するような表現があったりする場合があります。

倫理的な配慮

画像生成AIを使用する際は、倫理的な配慮も必要です。差別的、攻撃的、あるいは不適切な内容の画像を生成するようなプロンプトは避けるべきです。また、デマや誤情報を広めるような使い方も控えましょう。

多くのサービスでは、このような不適切な使用を防ぐためのフィルタリング機能が組み込まれていますが、ユーザー自身も責任ある使用を心がけることが大切です。

まとめ：画像生成AIの可能性を最大限に活かそう

ここまで、画像生成AIのプロンプトについて詳しく見てきました。Stable Diffusion、Midjourney、DALL·E 3など、代表的なサービスによってプロンプトの特徴は異なりますが、基本的な考え方は共通していることがわかりました。

画像生成AIを使いこなすためのポイントをもう一度おさらいしましょう：

明確で具体的な指示を心がける
参考例をマネしつつ、微調整と反復試行を重ねる
強調や制約条件をうまく活用する
著作権と肖像権に配慮する
AIの限界を理解し、必要に応じて人間が修正を加える
倫理的な使用を心がける

画像生成AIは、まだ生まれたばかりの新しい技術分野ですが、既に既存のビジネスを根底から覆すほどの可能性を秘めています。単なるコスト削減ツールとしてではなく、新しいクリエイティブの可能性を広げるツールとして活用することで、これまでにない事業の方向性が見えてくるかもしれません。

それぞれのサービスを実際に使いながら、望んだ結果が得られるまでプロンプトを試行錯誤してみることが大切です。最初は難しく感じるかもしれませんが、慣れてくれば自分のイメージにぴったりの画像を生成できるようになるはずです。

画像生成AIの世界は日々進化しています。新しい機能や改善点が次々と登場するので、常に最新の情報をチェックし、自分のスキルをアップデートし続けることが重要です。

また、プロンプトエンジニアリングのスキルを磨くことは、画像生成AI以外の分野でも役立つ可能性があります。例えば、テキスト生成AIや音声生成AIなど、他の生成AI技術においても、適切なプロンプトを作成する能力は非常に重要になってきています。

最後に、画像生成AIはあくまでもツールの一つであることを忘れないでください。AIが生成した画像を単に使用するだけでなく、それをヒントやベースとして、さらに人間の創造性や感性を加えることで、より素晴らしい作品や価値を生み出すことができるでしょう。

みなさんも、ぜひ画像生成AIの世界に飛び込んで、その可能性を探ってみてください。きっと、新しい発見や驚きが待っているはずです。そして、その経験を通じて、AIと人間がうまく協調しながら創造性を発揮できる未来を一緒に作っていけたらいいですね。

この記事を書いた人

comachi

神戸大学卒、中小企業診断士。システム開発会社にてITシステム導入支援、プロジェクトマネジメント業務に従事したのち、Webエンジニア兼・講師として独立。SaaS立ち上げ支援やエンジニアリング支援等を担当しています。Udemyでは、自身が強みを持つ「生成AI」「IT」や「財務会計」「管理会計」「業務効率化」を軸に、スキルアップ術・ノウハウを紹介しています。