2023年8月19日土曜日

ChatGPT Plusで和文からの画像生成を楽しむ

 前報では、ChatGPT Plus(有料版)にNASAの公開画像を検索できるプラグインSpace Photo Explorerを組み込んで試行した。今回は、日本語文から画像を生成する(ためのプロンプトを生成する)プラグインPhotorealisticを試した。もっと手軽に使えるMicrosoft BingImage Creattorに比べて、生成されたプロンプトを確認したり、修正したりできる柔軟性が好まれるのかもしれない。

日本語文から画像を生成する例
 一つの例を示す。日本語で次のように要求した:
"量子もつれに基づく量子テレポーテーションのイメージを描いて"

これだけで、Fig.1に示すような画像を生成できた。
 画像は無数に生成することができるが、このうち、(a)の画像は「量子もつれ」を強調したものになっているようだ。一方、(b)の画像は、別々の研究室にいる二人の間で、「量子テレポーテーション」が起こっていることを想起させる。両画像とも、与えた日本語の意図をよく汲み取っているように思われる。驚くべき結果ではなかろうか!

日本語文から画像を生成するフロー
 以下のようなフローで画像が生成される。
山本の要求:量子もつれに基づく量子テレポーテーションのイメージを描いて
ChatGPT(GPT-4 + Photorealistic)の応答(画像生成用プロンプト):
 Quantum entanglement visualized as two intertwined particles glowing in a deep space setting, medium: hyper-realistic photography, style: reminiscent of the visuals from the movie "Interstellar", lighting: soft ambient glow highlighting the particles with a backdrop of distant stars, colors: deep blues, purples, and shimmering whites, composition: shot with a Canon EOS 5D Mark IV DSLR camera, EF 85mm f/1.8 lens, Resolution 30.4 megapixels, ISO sensitivity: 100, Shutter speed 1/125 second, with a focus on the entangled particles in the center of the frame --ar 16:9 --v 5.1 --style raw --q 2 --s 750
Stable Diffusionによる画像生成:
 上記で生成されたプロンプトを、画像生成ソフトStable Diffusionなどへ入力する。その際、(多数公開されている)学習済みモデルから、適当な物を選択する。この選択次第で、画像の質や傾向がかなり変わる。generateボタンを押すと、暫くすると画像が生成される。Fig.2はその一例である。
 Stable Diffusionの実行は、web上でもできるようだが、私の場合は、ローカルマシン(M1 Mac mini)にその実行環境を構築して使った。その際、M1独自のGPUの性能が遺憾無く発揮され、思っていたよりもかなり高速に画像が生成できた。

日常生活の画像も
 さて、「量子もつれ」みたいな専門的話題ではなく、もっと日常生活でのシーンも画像にしてみよう。こんな感じになった。
山本の要求:夏休みの宿題に励む小学生の姿
ChatGPT(GPT-4 + Photorealistic) & Stable Diffusion:Fig.3の図を生成した。

山本の要求:避難訓練で大きなビルから逃げる人々の様子
ChatGPT(GPT-4 + Photorealistic) & Stable Diffusion:Fig.4の図を生成した。
感 想
 自然言語(英語など)でプロンプトを作成し、画像を生成させるソフトはいくつかあるのだが、上記のStable Diffusionはフリーソフトであり、原則として、生成された画像に対する著作権の問題も発生しないようである。
 問題は、そのプロンプト(仕様記述+画像生成制御パラメータ設定)の作成がとても面倒なことであった。それを、ChatGPTのプラグインPhotorealisticが見事に解決した!上記のように、日本語で要求与えるだけでよくなったのだから。
 だが、日本語の要求文次第で、いくらでも生成される画像の構成や質が変わる。経験を積んで適切に利用していくことが求められるだろう。あまりのめり込んで、時間と電力の浪費とならぬように。

0 件のコメント:

コメントを投稿