Stable Diffusion XL(SDXL)の使い方!超進化した最新の画像生成AIを使いこなそう

Stable Diffusion XLの使い方 画像生成AI

今回はStable Diffusionの最新版に関する話題で、タイトルの通り

Stable Diffusion XL(通称SDXL)の導入方法と使い方

を丁寧にご紹介するという内容になっています。

既にご存じの方もいらっしゃるかと思いますが、先月Stable Diffusionの最新かつ高性能版であるStable Diffusion XLが発表されて話題になっていました。このモデルは研究用途に限定されたSDXL 0.9が先行リリースされておりその描写性能の高さに驚いたという方も多いようです。

さてそのような中で本日7月27日、ついに正式版のSDXL 1.0がリリースされたので使い方等をまとめてみることにしました。ここではSDXLの正式版について

  • Stable Diffusion XLの概要・サンプル画像
  • 以前のStable Diffusionとの違い
  • Stable Diffusion web UIへの導入方法
  • 具体的な使い方

といった点を詳しく書いていきますね。

※2023/08/31追記:
Stable Diffusion web UI v1.6.0にてSDXLを完全にサポートするようになったようなので記事を更新しました。

Stable Diffusion XLとは?

Stable Diffusion XL(SDXL)は、画像生成AIとしてお馴染みのStable Diffusionの最新バージョンです。SDXLには後述するように

  • 生成画像の画質がかなりよくなった
  • 様々な画風に対応した

といった特徴があり、従来のStable Diffusionよりも性能が大幅に向上しています。

SDXLで生成した画像の例

ではさっそくですがSDXLを使って私が実際に生成したサンプル画像をいくつか掲載しておきますね。

美少女イラスト

まずはいつもどおり呪文のコツ記事の呪文を使って美少女イラストを生成してみました。

Stable Diffuison XLで生成した美少女イラストの例(1) Stable Diffuison XLで生成した美少女イラストの例(2) Stable Diffuison XLで生成した美少女イラストの例(3) Stable Diffuison XLで生成した美少女イラストの例(4)

美少女イラストに関しては、(少なくとも従来の美少女イラスト専用のモデルと比較すると)あっと驚くような出来栄えとは言えないかな…という印象です。しかしそれでもStable Diffusion v1.5と比べると格段にクオリティの高いイラストが生成されたことが分かりますね。

ちなみに普通に生成すると厚塗り風の美少女イラストが出てくることが多いのですが、呪文を工夫するとアニメ塗りに近いシンプルな塗りのイラストもたまに生成されることが確認できました。

リアル系の人物画像

次にリアル系の人物はどうかな?と思って日本人女性を生成してみました。

Stable Diffusion XLで生成した日本人女性の画像の例(1) Stable Diffusion XLで生成した日本人女性の画像の例(3)

こちらも従来の専用モデルと比較するとまあ悪くはないかな…という感じです。しかしStable Diffusion v1.5と比較するとやはり非常にクオリティが高くなっていますし、前よりは日本人らしくなっているような気がします。

ファンタジー風景

Stable Diffusion XLで生成したファンタジー風景の例(1) Stable Diffusion XLで生成したファンタジー風景の例(2)

風景に関しては元々Stable Diffusionが得意とする分野ですが、SDXLではさらにクオリティの高い画像が生成されました。

メカやロボット

Stable DIffusion XLで生成したSF風の女性のコンセプトアート Stable DIffusion XLで生成したSF風の戦車のコンセプトアート Stable DIffusion XLで生成したSF風のロボットの画像(1) Stable DIffusion XLで生成したSF風のロボットの画像(2)

メカやロボットはクオリティが飛躍的にアップしたようです。以前のモデルでは「なんとなくメカっぽいけど形になっていない」というような画像になることが多かったのですが、SDXLではちゃんとメカやロボになっていますね。カッコいい!

人物の手・指

あとSDXLは手や指の描写がより正確になったとのことだったので手が映るような画像を生成してみました。

Stable DIffuison XLで生成した握手の画像の例 Stable Diffusion XLで生成した手・指のサンプル画像(1)Stable Diffusion XLで生成した手・指のサンプル画像(2) Stable Diffusion XLで生成した手・指のサンプル画像(3)

なんか私が試した限りでは成功率が低かったのですが(呪文が悪いのかも?)、それでも以前のモデルと比べると描写がまあまあ正確になり問題点が改善されたと思います。前は指がグチャグチャになりがちだったことを考えるとこれはちょっと嬉しいポイントですね。

文字が含まれる画像

最後にSDXLは文字の描画がある程度きれいにできるようになったと聞いたので、試しに「Kurokuma」の名前入りのお店を生成してみることにしました。

Stable Diffusion XLで生成したテキスト入りの画像の例(1) Stable Diffusion XLで生成したテキスト入りの画像の例(2)

成功率は低いもののそれっぽいロゴ入りの画像が生成されました!ただし余計な文字が入ったりしているので思い通りのテキストを入れるのはまだ難しそうです。

以前のStable Diffusionとの違い

さて先ほどのサンプル画像からSDXLでは生成画像のクオリティがかなり向上したことが伺えますが、そのほかにもSDXLは以前のStable Diffusionとは大きく異なる部分があります。押さえておきたいポイントは次のとおりです。

  • モデルのパラメータ数が大幅に増えて性能が向上した
  • 低解像度(256×256未満)の学習データは使用されておらず、高解像度の画像のみが学習に使用されている
  • SDXLのモデルにはbaseモデルrefinerモデルの2種類があり、2段階の処理を行うことでより高画質な画像を生成することが可能(※baseモデルだけでも生成は可能)
  • デフォルトの生成画像サイズが1024×1024になった
  • 従来のStable Diffusionが苦手だった手やテキストをある程度きれいに生成できるようになった
  • 以前のStable Diffusionとは互換性がない

まあ要するに高性能になってハイクオリティの画像を生成できるようになったのと、モデルが2つ用意されているのが大きな特徴ですね。

SDXLを使用するメリット・デメリットまとめ

メリット

  • より高画質な画像を生成することができる
  • 画風の幅が広く、色々なスタイルの画像を生成することができる
  • 指や文字を比較的きれいに生成できる

デメリット

  • モデルが巨大なのでより多くのVRAMを消費する
  • 以前のStable Diffusionをベースに作られたLoRA等が使えない
  • 執筆時点ではControlNet等がSDXLに対応していない

Stable Diffusion web UIへの導入方法

では次にSDXLをStable Diffusion web UIに導入する方法についてご説明します。

SDXLを使うにはweb UI v1.5.0以降が必要

まず前提として、SDXLを使うためにはweb UIのバージョンがv1.5.0以降である必要があります(※もっと言うと後述のrefinerモデルを手軽に使うためにはv1.6.0以降が必要)。しばらくアップデートしていないよという方はアップデートを済ませておきましょう。

(参考)VRAM容量が12GB程度のグラボが必要

あと参考までに、web UIでSDXLを動かす際はグラボのVRAMを最大11GB程度使用するので動作にはそれ以上のVRAMを積んだグラボが必要です。VRAMが足りないかも…という方は一応試してみてダメならグラボの買い替えを検討したほうがいいかもしれません。

Stable Diffusionを快適に動かすためのグラボの選び方については下記の記事で詳しくご紹介していますのでそちらも併せてご覧ください。

Stable Diffusion用のグラフィックボードの選び方!美少女イラストを快適に生成しよう
今回も画像生成AIに関する話題で、タイトルの通り Stable Diffusionを快適に動かすためのグラフィックボードの選び方 をご紹介するという内容になっています。 画像生成AIの代表格ともいえるStable Diffusionを動かす...

ただしComfyUIというツールを使うとStable Diffusion web UIを使った場合の半分くらいのVRAMで済む可能性があります。「VRAMが少ないグラボを使っているけどSDXLを試したい」という方はComfyUIを試してみる価値があるでしょう。

ComfyUIでSDXLを動かす方法!最新モデルを少ないVRAMで動かそう【Stable Diffusion XL】
今回もStable Diffusion XL(SDXL)に関する話題で、タイトルの通り ComfyUIでStable Diffusion XLを動かす方法 を丁寧に解説するという内容になっています。 以前、ノードベースのWeb UIである「...

必要なモデルのダウンロード

さてSDXLのモデルファイルやVAEは下記ページからダウンロードできます。

baseモデル(必須)

stabilityai/stable-diffusion-xl-base-1.0 at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

いくつかファイルがありますが「sd_xl_base_1.0.safetensors」をダウンロードしましょう。baseモデルは必須で単体でも動作します。

baseモデルのダウンロード方法

refinerモデル(任意)

stabilityai/stable-diffusion-xl-refiner-1.0 at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

refinerモデルはその名の通り画質を向上させるためのモデルです。必須ではありませんが、あると便利なので可能であればダウンロードしておきましょう。

refinerモデルのダウンロード方法

VAE(任意)

stabilityai/sdxl-vae at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

SDXL用のVAEもついでにダウンロードしておきましょう。

VAEのダウンロード方法

モデルファイルを所定のフォルダに入れる

ダウンロードできたらbaseモデルとrefinerモデルを下記のフォルダに移動させてください。

webui\models\Stable-diffusion

また、VAEは下記のフォルダに入れればOKです。

webui\models\VAE

Stable Diffusion XLの使い方

基本設定

ここまでできたらSDXLを使えますので実際に画像を生成してみましょう。やり方は簡単で下記のように設定して、いつも通り呪文を記入し画像を生成するだけです。

  • モデル:「sd_xl_base_1.0.safetensors」を選択
  • VAE:「sdxl_vae.safetensors」を選択
  • サンプリング方法:「DPM++ 2M SDE Karras」など好きなものを選択(ただしDDIMなど一部のサンプリング方法は使えないようなので注意)
  • 画像サイズ:基本的にSDXLでサポートされているサイズに設定(1024×1024、1344×768など)

画像サイズはサポート外のサイズにすると画像のクオリティが低下する場合があるのでご注意ください。

refinerモデルの使い方

最後にweb UIでrefinerモデルを使う方法をご紹介しておきます。やり方は簡単で、下記の「Refiner」欄にrefinerモデルを指定するだけです。

Stable Diffusion web UIでのRefinerモデルの適用方法

リアル系の画像では画像のクオリティがさらにアップする場合があるとのこと。ただ私が試した限りではそこまで劇的な変化はなく、ディテールが少し追加されたかな?くらいの印象でした。

一方でイラスト系だと逆にクオリティが落ちてしまうこともあるようです。上手く使い分けましょう。

SDXLで生成した元画像 refinerを使用した画像
Stable Diffusion XLで生成した日本人女性の画像(元) Stable Diffusion XLで生成した日本人女性の画像(refiner使用)
Stable Diffusion XLで生成したSF風の女の子のイラスト(元) Stable Diffusion XLで生成したSF風の女の子のイラスト(refiner使用)

おわりに

以上、Stable Diffusion XLの概要や使い方についてご説明しました。

SDXLは以前のStable Diffusionとの互換性がなく従来のLoRA等が使えないのがやや不便ですが、その点を補って余りあるほどの性能を持っており今後の発展に期待したいところです。とにかくクオリティが高い画像を生成できますのでぜひ皆さんも実際に試してみてください。

この記事が何かしらお役に立てば幸いです。