今回はStable Diffusionの最新版に関する話題で、タイトルの通り
を丁寧にご紹介するという内容になっています。
既にご存じの方もいらっしゃるかと思いますが、先月Stable Diffusionの最新かつ高性能版であるStable Diffusion XLが発表されて話題になっていました。このモデルは研究用途に限定されたSDXL 0.9が先行リリースされておりその描写性能の高さに驚いたという方も多いようです。
さてそのような中で本日7月27日、ついに正式版のSDXL 1.0がリリースされたので使い方等をまとめてみることにしました。ここではSDXLの正式版について
- Stable Diffusion XLの概要・サンプル画像
- 以前のStable Diffusionとの違い
- Stable Diffusion web UIへの導入方法
- 具体的な使い方
といった点を詳しく書いていきますね。
Stable Diffusion web UI v1.6.0にてSDXLを完全にサポートするようになったようなので記事を更新しました。
Stable Diffusion XLとは?
Stable Diffusion XL(SDXL)は、画像生成AIとしてお馴染みのStable Diffusionの最新バージョンです。SDXLには後述するように
- 生成画像の画質がかなりよくなった
- 様々な画風に対応した
といった特徴があり、従来のStable Diffusionよりも性能が大幅に向上しています。
SDXLで生成した画像の例
ではさっそくですがSDXLを使って私が実際に生成したサンプル画像をいくつか掲載しておきますね。
美少女イラスト
まずはいつもどおり呪文のコツ記事の呪文を使って美少女イラストを生成してみました。
美少女イラストに関しては、(少なくとも従来の美少女イラスト専用のモデルと比較すると)あっと驚くような出来栄えとは言えないかな…という印象です。しかしそれでもStable Diffusion v1.5と比べると格段にクオリティの高いイラストが生成されたことが分かりますね。
ちなみに普通に生成すると厚塗り風の美少女イラストが出てくることが多いのですが、呪文を工夫するとアニメ塗りに近いシンプルな塗りのイラストもたまに生成されることが確認できました。
リアル系の人物画像
次にリアル系の人物はどうかな?と思って日本人女性を生成してみました。
こちらも従来の専用モデルと比較するとまあ悪くはないかな…という感じです。しかしStable Diffusion v1.5と比較するとやはり非常にクオリティが高くなっていますし、前よりは日本人らしくなっているような気がします。
ファンタジー風景
風景に関しては元々Stable Diffusionが得意とする分野ですが、SDXLではさらにクオリティの高い画像が生成されました。
メカやロボット
メカやロボットはクオリティが飛躍的にアップしたようです。以前のモデルでは「なんとなくメカっぽいけど形になっていない」というような画像になることが多かったのですが、SDXLではちゃんとメカやロボになっていますね。カッコいい!
人物の手・指
あとSDXLは手や指の描写がより正確になったとのことだったので手が映るような画像を生成してみました。
なんか私が試した限りでは成功率が低かったのですが(呪文が悪いのかも?)、それでも以前のモデルと比べると描写がまあまあ正確になり問題点が改善されたと思います。前は指がグチャグチャになりがちだったことを考えるとこれはちょっと嬉しいポイントですね。
文字が含まれる画像
最後にSDXLは文字の描画がある程度きれいにできるようになったと聞いたので、試しに「Kurokuma」の名前入りのお店を生成してみることにしました。
成功率は低いもののそれっぽいロゴ入りの画像が生成されました!ただし余計な文字が入ったりしているので思い通りのテキストを入れるのはまだ難しそうです。
以前のStable Diffusionとの違い
さて先ほどのサンプル画像からSDXLでは生成画像のクオリティがかなり向上したことが伺えますが、そのほかにもSDXLは以前のStable Diffusionとは大きく異なる部分があります。押さえておきたいポイントは次のとおりです。
- モデルのパラメータ数が大幅に増えて性能が向上した
- 低解像度(256×256未満)の学習データは使用されておらず、高解像度の画像のみが学習に使用されている
- SDXLのモデルにはbaseモデルとrefinerモデルの2種類があり、2段階の処理を行うことでより高画質な画像を生成することが可能(※baseモデルだけでも生成は可能)
- デフォルトの生成画像サイズが1024×1024になった
- 従来のStable Diffusionが苦手だった手やテキストをある程度きれいに生成できるようになった
- 以前のStable Diffusionとは互換性がない
まあ要するに高性能になってハイクオリティの画像を生成できるようになったのと、モデルが2つ用意されているのが大きな特徴ですね。
SDXLを使用するメリット・デメリットまとめ
メリット
- より高画質な画像を生成することができる
- 画風の幅が広く、色々なスタイルの画像を生成することができる
- 指や文字を比較的きれいに生成できる
デメリット
- モデルが巨大なのでより多くのVRAMを消費する
- 以前のStable Diffusionをベースに作られたLoRA等が使えない
- 執筆時点ではControlNet等がSDXLに対応していない
Stable Diffusion web UIへの導入方法
では次にSDXLをStable Diffusion web UIに導入する方法についてご説明します。
SDXLを使うにはweb UI v1.5.0以降が必要
まず前提として、SDXLを使うためにはweb UIのバージョンがv1.5.0以降である必要があります(※もっと言うと後述のrefinerモデルを手軽に使うためにはv1.6.0以降が必要)。しばらくアップデートしていないよという方はアップデートを済ませておきましょう。
(参考)VRAM容量が12GB程度のグラボが必要
あと参考までに、web UIでSDXLを動かす際はグラボのVRAMを最大11GB程度使用するので動作にはそれ以上のVRAMを積んだグラボが必要です。VRAMが足りないかも…という方は一応試してみてダメならグラボの買い替えを検討したほうがいいかもしれません。
Stable Diffusionを快適に動かすためのグラボの選び方については下記の記事で詳しくご紹介していますのでそちらも併せてご覧ください。
ただしComfyUIというツールを使うとStable Diffusion web UIを使った場合の半分くらいのVRAMで済む可能性があります。「VRAMが少ないグラボを使っているけどSDXLを試したい」という方はComfyUIを試してみる価値があるでしょう。
必要なモデルのダウンロード
さてSDXLのモデルファイルやVAEは下記ページからダウンロードできます。
baseモデル(必須)
いくつかファイルがありますが「sd_xl_base_1.0.safetensors」をダウンロードしましょう。baseモデルは必須で単体でも動作します。
refinerモデル(任意)
refinerモデルはその名の通り画質を向上させるためのモデルです。必須ではありませんが、あると便利なので可能であればダウンロードしておきましょう。
VAE(任意)
SDXL用のVAEもついでにダウンロードしておきましょう。
モデルファイルを所定のフォルダに入れる
ダウンロードできたらbaseモデルとrefinerモデルを下記のフォルダに移動させてください。
また、VAEは下記のフォルダに入れればOKです。
Stable Diffusion XLの使い方
基本設定
ここまでできたらSDXLを使えますので実際に画像を生成してみましょう。やり方は簡単で下記のように設定して、いつも通り呪文を記入し画像を生成するだけです。
- モデル:「sd_xl_base_1.0.safetensors」を選択
- VAE:「sdxl_vae.safetensors」を選択
- サンプリング方法:「DPM++ 2M SDE Karras」など好きなものを選択(ただしDDIMなど一部のサンプリング方法は使えないようなので注意)
- 画像サイズ:基本的にSDXLでサポートされているサイズに設定(1024×1024、1344×768など)
画像サイズはサポート外のサイズにすると画像のクオリティが低下する場合があるのでご注意ください。
refinerモデルの使い方
最後にweb UIでrefinerモデルを使う方法をご紹介しておきます。やり方は簡単で、下記の「Refiner」欄にrefinerモデルを指定するだけです。
リアル系の画像では画像のクオリティがさらにアップする場合があるとのこと。ただ私が試した限りではそこまで劇的な変化はなく、ディテールが少し追加されたかな?くらいの印象でした。
一方でイラスト系だと逆にクオリティが落ちてしまうこともあるようです。上手く使い分けましょう。
SDXLで生成した元画像 | refinerを使用した画像 |
---|---|
おわりに
以上、Stable Diffusion XLの概要や使い方についてご説明しました。
SDXLは以前のStable Diffusionとの互換性がなく従来のLoRA等が使えないのがやや不便ですが、その点を補って余りあるほどの性能を持っており今後の発展に期待したいところです。とにかくクオリティが高い画像を生成できますのでぜひ皆さんも実際に試してみてください。
この記事が何かしらお役に立てば幸いです。