今回はStable Diffusion初心者向けの話題で、タイトルの通り
として「やりたいこと」や「疑問点」から逆引き的に情報を探せる記事を書いていきます。
Stable Diffuisonを使っていると疑問が湧いたり、「これをやりたいけどやり方が分からない・上手くいかない」といった場合があったりしますよね。ただ現状では情報が散らばっていて調べるのが面倒くさいという問題があるので、初心者の方にとっては少々やりづらい部分もあるかと思います。
そこでここではそのような手間を省くために、よくありそうな疑問・要望に対する回答を一通りまとめてみることにしました。ぜひ下記の内容を参考にしていただきスッキリしていただければ幸いです。
Stable Diffusionの初歩的なこと
では、まずはStable Diffusionの初歩的なことに関するガイドです。
- そもそもStable Diffusionとは?
- Stable DiffusionはNovelAIやMidjourneyとはどう違うの?
- Stable Diffusionを簡単に使えるツールは結局どれを使えばいいの?
- 画像生成用のグラフィックボードを買うならどれがオススメ?
- モデルのckptとsafetensorsって何が違うの?
- モデルのfp16・fp32・prunedって何?どれを選べばいいの?
そもそもStable Diffusionって何?
Stable Diffusionは無料で使うことができる画像生成AIです。
詳しい概要や導入方法・基本的な使い方については下記の記事でご説明しています。「まだ使ったことがないよ」という超初心者の方はそちらも併せてご覧ください。
NovelAIやMidjourneyとはどう違うの?
Stable Diffusionは自分のPC(=ローカル環境)で無料&制限なく画像を生成できる点が強みです。
Novel AIやMidjourneyは有料のWebサービスであり、手軽な反面
- お金がかかる
- 大人向けの画像は生成できない
といった制約があります。一方でStable Diffusionはローカルで動かすことができるためそのようなデメリットがありません。
欠点を挙げるとすれば一定以上のPCスペックが必要ですが、もしゲーミングPCのようなパソコンをお使いなら余裕で画像を生成できるのでStable Diffusionの導入をお勧めします。
Stable Diffusionを簡単に使えるツールは結局どれを使えばいいの?
AUTOMATIC1111氏による「Stable Diffusion web UI」がイチオシです。理由としては
- ユーザー数が多くて使い方の情報が豊富
- 元々多機能なうえに、拡張機能の開発が盛んで色々な便利機能を追加できる
- 頻繁に更新されてどんどん便利になる
- 日本語化可能
といった点が挙げられます。
Stable Diffusion web UIの詳しいインストール方法や使い方は下記の記事で紹介していますので、そちらも併せてご覧ください。
画像生成用のグラフィックボードを買うならどれがオススメ?
執筆時点では「GeForce RTX3060 12GBモデル」がコスパがよくオススメです。理由は価格の割にVRAM(=グラボ専用のメモリ)の容量が大きく、画像生成AIを動かすのに都合がよいからです。
Stable Diffusionを快適に動かすためのグラボの選び方は下記の記事で詳しくご説明しています。ご興味があればそちらもご覧いただければと思います。
モデルのckptとsafetensorsって何が違うの?
どちらもモデルファイルの形式ですが、執筆時点ではsafetensors形式が主流になっています。その理由は
です。初期のモデルはckptしか用意されていない場合も多いのですが、ckpt形式はセキュリティ上の懸念があるので迂闊に導入するのはお勧めしません。
最近のモデルでもし両方用意されている場合は迷わずsafetensorsのほうを選びましょう。
モデルのfp16・fp32・prunedって何?どれを選べばいいの?
ザックリ言うと
- 「fp」がついているモデルは精度を犠牲にして容量を削減したもの
- 「pruned」とあるモデルは余計なデータを削ぎ落して容量を削減したもの
で、いずれもフル版よりも容量が削減されている軽量版です。普通に画像を生成するだけであれば生成結果はどれもほぼ同じなので、容量が軽いものを選んで頂いてかまいません。
Stable Diffuisonの技術的なこと
次は一歩進んで技術的な話題に関するガイドです。
- かわいい美少女イラストを生成したい
- 大人向けの画像を出したい/逆に全年齢向けの画像だけを出したい
- 他の人が生成した画像の呪文を知りたい
- 生成した画像のクオリティが低く、コレジャナイ感がすごい
- 生成した画像の絵が崩れてしまった。考えられる原因は?
- 生成した画像の色がおかしい(彩度が低い)
- 特定のキャラクターを出したい
- キャラクターのポーズを指定して画像を生成したい
- 高解像度の画像を生成したい
- どうしても手が崩れる。手や指をきれいに描けるようにしたい
- 画像の一部だけを手軽に修正したい
- 既存のモデルが気に食わないのでモデルを自作したい
かわいい美少女イラストを生成したい
かわいい美少女イラストを生成するためには次の2点が必要です。
- 美少女イラスト生成用モデルを導入する(←重要)
- 呪文を工夫する
まずは美少女イラストの特徴を学習したモデルが必要です。執筆時点では様々なモデルが出回っているので、好みのモデルを選んでください。参考までに下記の記事ではオススメの美少女イラスト生成モデルをいくつか絞ってご紹介しています。
また単に美少女イラスト用のモデルを導入するだけでもダメで、クオリティの高いイラストを生成するためには呪文のコツも必要です。その点に関しては下記の記事でコツをご紹介していますのでぜひご覧ください。
大人向けの画像を出したい/逆に全年齢向けの画像だけを出したい
結論からいうと
- 大人向けの画像を出す場合はプロンプトに「nsfw」を含める
- 全年齢向けの画像を出す場合はネガティブプロンプトに「nsfw」を含める
のが手っ取り早いです。
nsfwとは「職場閲覧注意」の略語で大人向け画像につけられるタグの一種です。これは海外では幅広く使われており、プロンプトに入れれば大人向けの画像が生成され・逆にネガティブプロンプトに入れれば健全な画像が生成されるというとても便利なキーワードになっています。
ただし使うモデルによっては大人向け表現が苦手で上手く出ないこともあるので、その辺はモデルの説明をよく読んでください。
他の人が生成した画像の呪文を知りたい
Stable Diffusion web UIをお使いであれば、「PNG内の情報を表示」タブに画像をドラッグ&ドロップするだけで生成に使用した呪文や設定が表示されます。
ただし
- 画像編集ソフトを通した画像
- PNG以外の形式に変換された画像
などの場合は情報が削除されてしまい呪文が出てこない場合があるので注意してください。
また、そのほかAIイラスト投稿サイトでは生成に使用した呪文や設定などを公開している場合もあるので参考にするとよいでしょう。
生成した画像のクオリティが低い。コレジャナイ感がすごい
このようなとき、特に美少女イラストの場合はネガティブプロンプトが適切ではない可能性があります。例えば下記のようなキーワードをネガティブプロンプトに含めてみましょう。
flat color, flat shading, retro style, poor quality, worst quality, bad face, bad fingers, bad anatomy, missing fingers, low res
また、他の原因としてClip Skipの値が推奨値と違うことも考えられます。執筆時点で出回っている美少女イラスト生成用モデルのClip Skipの推奨値は「2」の場合が多いです。確認してみてください。
生成した画像の絵が崩れてしまった。考えられる原因は?
よくある原因は次の3つです。
- サンプリングステップ数の値が低すぎる
- CFGスケールの値が適正値から外れている
- 素直に高解像度の画像を生成しようとした
まずサンプリングステップ数の値が低すぎると絵が崩れる原因になります。使用するサンプラーやモデルにもよりますがサンプリングステップ数の適正値はだいたい「20~40」くらいです。
また、CFGスケールの値が低すぎたり高すぎたりしても絵が崩れることがあります。CFGスケールの適正値の目安は「5~15」程度です。
そのほか、愚直に高解像度の画像を生成することも絵が崩れる原因の一つです。その場合は後述する解決策をお試しください。
生成した画像の色がおかしい(彩度が低い)
このような場合は正しいVAEが選択されていない可能性があります。特に美少女イラスト生成用モデルでは決められたVAEを使わないと意図した画像が生成されないものが多いです。所定のVAEが導入されており、生成時にきちんと選択されているかどうかをご確認ください。
ちなみにVAEの有無による違いの比較は次のとおり。
VAEなし | 適切なVAEを使用 |
---|---|
特定のキャラクターを出したい
少々難しいですがLoRA等の追加学習を行うのが近道です。普通にモデルを選んで生成するだけではモデルが学習していないキャラクターを出すのは困難なので、追加学習を試しましょう。
LoRAを使った学習のやり方については下記の記事で詳しく解説しています。ご興味があればそちらも併せてご覧ください。
キャラクターのポーズを指定して画像を生成したい
このような場合はControlNetを使うと非常に便利です。詳細は下記の記事に書いたのでそちらもご覧いただければと思います。
高解像度の画像を生成したい
高解像度の画像を生成する場合は、何も考えず愚直に大きな画像を生成すると絵が崩れる原因になります。そこで下記のいずれかをお試しください。
- 「Hires.fix」機能を使う
- 「Tiled Diffuison」拡張機能を使う
まずはweb UIに標準搭載されている「Hires.fix」を使う方法です。こちらはグラボの性能が必要になりますが高解像度の画像をきれいに生成することができます。詳しい使い方は下記の記事でご説明しています。
次に拡張機能の「Tiled Diffusion」を使えば、グラボの性能が低めでも巨大な画像を生成することが可能です。こちらは人物も描けますがどちらかといえば風景のパノラマ風画像を作るのに適している印象です。使い方は下記の記事で詳しくご紹介していますので参考になさってください。
どうしても手が崩れる。手や指をきれいに描けるようにしたい
手の描写はAI最大の弱点です。しかしControlNetを上手く使うことである程度解決できる可能性があります。「Depth map library and poser」という拡張機能が便利なのでぜひお試しください。
画像の一部だけを手軽に修正したい
web UIのInpainting機能が便利です。詳しい使い方は下記の記事をご覧ください。
既存のモデルが気に食わないのでモデルを自作したい
モデルを一から作るのは個人では困難ですが、代わりに既存のモデルを合体させる方法(=モデルのマージ)を使うのがおすすめです。やり方は簡単ですぐに試すことができます。詳細は下記の記事をご覧ください。
その他、よくありそうな困りごと
最後はそのほかの困りごとに対するガイドです。
- SNSや掲示板は専門用語だらけで話についていけない…
- Stable Diffusionの最新情報はどこで仕入れればいいの?
- ナイスなイラストを生成できたのでみんなに見せびらかしたい
- グラボを買ったもののケースに入らない。困った!
SNSや掲示板は専門用語だらけで話についていけない…
専門用語をまとめた記事を作ったのでそれを参考にしていただくとよいかと思います。
Stable Diffusionの最新情報はどこで仕入れればいいの?
情報源は色々ありますが、個人的には例えば
- Twitterで専門性の高いアカウントをフォロー
- Redditの「Stable Diffusion」サブレディットをチェック(※英語)
といった方法がおすすめです。
特に英語の情報は専門性が高かったり、最新情報が載っていたりします。抵抗がなければこまめにチェックするのがコツです。
ナイスなイラストを生成できたのでみんなに見せびらかしたい
個人的に生成したイラストは一人でこっそり楽しむ程度に留めることをオススメしたいのですが、どうしても公開したくなった場合はAIイラスト専門の投稿サイトに投稿するのがよいかと思います。そのようなサイトはいくつかありますのでググってみてください。
ただし画像の内容によっては法に触れる場合もあります。心配なら無暗にアップロードしないほうが賢明でしょう。
グラボを買ったもののケースに入らない。困った!
やっちまいましたね!ケースをもっと大きいものに買い替えましょう。
おわりに
以上、長くなってしまいましたがStable Diffusion初心者の方のためのガイド的な内容を一通り書いてみました。Stable Diffusionは使い込むほど面白さが増す素晴らしい画像生成AIなので、初心者の方には疑問を解決していただき、ぜひ画像生成ライフをお楽しみいただければと思います。
この記事が何かしら参考になれば幸いです。