Stable Diffusion XL（SDXL）の使い方！超進化した最新の画像生成AIを使いこなそう

今回はStable Diffusionの最新版に関する話題で、タイトルの通り

Stable Diffusion XL（通称SDXL）の導入方法と使い方

を丁寧にご紹介するという内容になっています。

既にご存じの方もいらっしゃるかと思いますが、先月Stable Diffusionの最新かつ高性能版であるStable Diffusion XLが発表されて話題になっていました。このモデルは研究用途に限定されたSDXL 0.9が先行リリースされておりその描写性能の高さに驚いたという方も多いようです。

さてそのような中で本日7月27日、ついに正式版のSDXL 1.0がリリースされたので使い方等をまとめてみることにしました。ここではSDXLの正式版について

Stable Diffusion XLの概要・サンプル画像
以前のStable Diffusionとの違い
Stable Diffusion web UIへの導入方法
具体的な使い方

といった点を詳しく書いていきますね。

※2023/08/31追記：
Stable Diffusion web UI v1.6.0にてSDXLを完全にサポートするようになったようなので記事を更新しました。

Stable Diffusion XLとは？
Stable Diffusion web UIへの導入方法
Stable Diffusion XLの使い方
1. 基本設定
2. refinerモデルの使い方
おわりに

Stable Diffusion XLとは？

Stable Diffusion XL（SDXL）は、画像生成AIとしてお馴染みのStable Diffusionの最新バージョンです。SDXLには後述するように

生成画像の画質がかなりよくなった
様々な画風に対応した

といった特徴があり、従来のStable Diffusionよりも性能が大幅に向上しています。

SDXLで生成した画像の例

ではさっそくですがSDXLを使って私が実際に生成したサンプル画像をいくつか掲載しておきますね。

美少女イラスト

まずはいつもどおり呪文のコツ記事の呪文を使って美少女イラストを生成してみました。

美少女イラストに関しては、（少なくとも従来の美少女イラスト専用のモデルと比較すると）あっと驚くような出来栄えとは言えないかな…という印象です。しかしそれでもStable Diffusion v1.5と比べると格段にクオリティの高いイラストが生成されたことが分かりますね。

ちなみに普通に生成すると厚塗り風の美少女イラストが出てくることが多いのですが、呪文を工夫するとアニメ塗りに近いシンプルな塗りのイラストもたまに生成されることが確認できました。

リアル系の人物画像

次にリアル系の人物はどうかな？と思って日本人女性を生成してみました。

こちらも従来の専用モデルと比較するとまあ悪くはないかな…という感じです。しかしStable Diffusion v1.5と比較するとやはり非常にクオリティが高くなっていますし、前よりは日本人らしくなっているような気がします。

ファンタジー風景

風景に関しては元々Stable Diffusionが得意とする分野ですが、SDXLではさらにクオリティの高い画像が生成されました。

メカやロボット

メカやロボットはクオリティが飛躍的にアップしたようです。以前のモデルでは「なんとなくメカっぽいけど形になっていない」というような画像になることが多かったのですが、SDXLではちゃんとメカやロボになっていますね。カッコいい！

人物の手・指

あとSDXLは手や指の描写がより正確になったとのことだったので手が映るような画像を生成してみました。

なんか私が試した限りでは成功率が低かったのですが（呪文が悪いのかも？）、それでも以前のモデルと比べると描写がまあまあ正確になり問題点が改善されたと思います。前は指がグチャグチャになりがちだったことを考えるとこれはちょっと嬉しいポイントですね。

文字が含まれる画像

最後にSDXLは文字の描画がある程度きれいにできるようになったと聞いたので、試しに「Kurokuma」の名前入りのお店を生成してみることにしました。

成功率は低いもののそれっぽいロゴ入りの画像が生成されました！ただし余計な文字が入ったりしているので思い通りのテキストを入れるのはまだ難しそうです。

以前のStable Diffusionとの違い

さて先ほどのサンプル画像からSDXLでは生成画像のクオリティがかなり向上したことが伺えますが、そのほかにもSDXLは以前のStable Diffusionとは大きく異なる部分があります。押さえておきたいポイントは次のとおりです。

モデルのパラメータ数が大幅に増えて性能が向上した
低解像度（256×256未満）の学習データは使用されておらず、高解像度の画像のみが学習に使用されている
SDXLのモデルにはbaseモデルとrefinerモデルの2種類があり、2段階の処理を行うことでより高画質な画像を生成することが可能（※baseモデルだけでも生成は可能）
デフォルトの生成画像サイズが1024×1024になった
従来のStable Diffusionが苦手だった手やテキストをある程度きれいに生成できるようになった
以前のStable Diffusionとは互換性がない

まあ要するに高性能になってハイクオリティの画像を生成できるようになったのと、モデルが2つ用意されているのが大きな特徴ですね。