今回は画像生成AIの入門的な話題で
を超初心者の方のために一通りまとめてご紹介するという内容になっています。
普段からネットをご覧になっている方であれば、AIによって生成された美少女イラスト等を見かけたことがあると思います。なので画像生成AIに興味をお持ちの方も多いと思うのですが、正直なところ
とお悩みの方が多いのではないでしょうか。
そこでここではAIで画像を10000枚以上生成してきた私が
- そもそも画像生成AIとは?
- 完全無料で使えるStable Diffusionについて
- 簡単なインストール方法
- 基本的な使い方
といった点について丁寧に解説していきますね。
※追記:
この記事ではStable Diffusion v1.5の場合の解説を行っています。最新のStable Diffusion XLの解説は下記の記事で行っていますので、最新版について知りたいよという方はそちらも併せてご覧ください。
そもそも画像生成AIとは?
でははじめに「そもそも画像生成AIって何だよ」という超初心者の方もいらっしゃるかもしれないので、その部分からザックリと説明しようと思います。
画像生成AIとはすごく簡単に言えば
のことで、「プロンプト」(俗にいう「呪文」)とよばれる英単語や英文を打ち込むことでそれに合った画像を生成してくれます。例えば
(お金と金塊に囲まれたくろくま)
という呪文を打ち込むと次のような画像が生成されます。
…結構リアルでしょ?これは写真のような出来栄えですが、画風を表す英単語を呪文に混ぜることでイラスト風にもできます。
このように呪文次第で色々と面白い画像を生成することが可能です。
完全無料で使える画像生成AI「Stable Diffusion」
そんな画像生成AIにはいくつか種類があるのですが、今のところ完全無料で使えるのはオープンソースの「Stable Diffusion」(読み方:ステーブルディフュージョン)というAIです。
そこで下記の内容ではこのStable Diffusionを使って画像を生成する方法について解説していきます。
Stable Diffusionを使うための3つの方法とそれらの比較
まずStable Diffusionを使うには主に次の3つの方法があります。
- Stable Diffusionを採用したアプリ・Webサービスを使う方法
- クラウド環境にインストールして使う方法
- 自分のパソコンにインストールして使う方法(←おすすめ)
Stable Diffusionを採用したアプリやWebサービスを使う方法
一つ目は、Stable Diffusionを採用したアプリやWebサービスを使って画像を生成する方法です。
メリットとしては高性能なPCを持っていなくても手軽に画像を生成できる点が挙げられますが、基本的に有料で提供されるサービスばかりなのでお金がかかるのがデメリットとなります。また、例えば大人向けの画像などは制限がかかっていて生成できません。
クラウド環境にインストールして使う方法
次に二つ目はクラウド環境にStable Diffusionをインストールする方法です。
クラウド環境を活用すれば高性能なPCを持っていなくても画像を生成できるのが魅力です。しかしクラウドは使えば使うほど料金が発生する仕組みになっていることが多く、大量の画像を生成しようとするとやはりお金がかかってしまいます。また、うっかり大人向けの画像を生成して保存するとアカウントが凍結される可能性もあるので注意が必要です。
自分のパソコンにインストールして使う方法(おすすめ)
三つ目は自分のパソコン(つまりローカル環境)にStable Diffusionをインストールする方法です。
上記二つとは違って比較的高性能なPCが必要になりますが、無料で好きなだけ画像を生成できるうえに制限もないので自由度としては最も高くなります。個人的にはこの方法が一番オススメなので、下記ではローカル環境にインストールする方法をご紹介しますね。
Stable Diffusionの簡単な導入方法
さて前置きが非常に長くなってしまいましたがここからが本題です。まずはStable Diffusionをローカル環境に簡単にインストールする方法をご説明します。
Stable Diffusionを快適に動かすために必要なPCスペックについて
まずはじめに、パソコンのスペックに関する注意点があります。Stable Diffusionをローカル環境で実行するためにはそこそこのスペックのPCが必要となります。
一口にPCスペックといっても色々な指標があると思うのですが、Stable Diffuisonを動かすうえで特に必要となるのがグラフィックボード(=略してグラボ)というパーツの性能で
- NVIDIAの「GeForce RTX20」シリーズ以降
- かつ、VRAM(=ビデオメモリ)容量が10GB以上
といった要件を満たすグラボを搭載していることが望ましいです。
まあもう少し性能が低いグラボでも動かせる場合もあるのですが、あまりにもグラボが古かったり、性能が足りなかったりすると画像が出力されないことがあるようなので試してみてダメなら買い替えを検討しましょう。
ちなみにStable Diffusionを快適に動かすためのグラフィックボードの選び方を下記の記事で詳しく解説しているので、ご興味があればそちらも併せてご覧ください。
またそのほか、快適な画像生成ライフを送るためには
も多ければ多いほどよいです。特にStable Diffusionを使い込むつもりならRAMは最低でも16GB以上あるのが望ましく、足りないと
- エラーが出る
- 画像生成中に他の作業をしづらくなる
といった場合があるのでこちらも試して不便なら増設を検討してください(※メモリの購入時には規格の確認を忘れずに!)。
Stable Diffusionを手軽に使えるツールを活用しよう
ではお次はStable Diffusionの導入方法についてです。
まず、ここまでの解説では「Stable Diffusion=画像生成AI」とご説明しましたが、実はStable Diffusion自体は学習モデルと呼ばれる単なるファイルでありそれ単体で画像を生成できるわけではありません。そのため本来は
- Stable Diffusionが動作するように環境構築作業をする
- 画像を生成するためにコマンドラインをたたく
といった面倒なステップを踏む必要があります。
しかし大変ありがたいことにStable Diffusionが動く環境を手軽に構築でき、簡単に画像生成を行える無料のツールがいくつか登場しているので初心者の方はそれを活用しましょう。
ここではWindows用のツールとして人気が高い次の2つをご紹介しておきます。
- Stable Diffusion web UI(←おすすめ)
- NMKD Stable Diffusion GUI
下記でそれぞれについて詳しく紹介している記事へのリンクを張っておくので、どちらか好きな方を選んで導入してください。
Stable Diffusion web UI(おすすめ)
Stable Diffusion web UIはブラウザを介して簡単にStable Diffuisonを使える無料ツールです。後述するNMKDのほうと比べると
- 多機能
- すごい勢いで更新される
- 日本語化できる
- 拡張機能をインストールすることでさらに便利になる
といった特徴があり、初心者から上級者の方まで幅広い人におすすめです。ちなみにStable Diffusion界隈ではこちらの方が圧倒的に人気です。
NMKD Stable Diffusion GUI
NMKD Stable Diffusion GUIはStable Diffusion用の環境を簡単にインストール&使用できるように開発された無料のWindows用ソフトウェアです。
先ほどのweb UIのほうと比べると機能的には全く物足りず不便な気もしますが、UIがすっきりしていてわかりやすいため入門用としては悪くないと思います。
Stable Diffusionのプロンプト(呪文)のコツ
さてお次はプロンプトのコツについてです。Stable Diffusionを使って多くの画像を生成していると、呪文の書き方によって生成される画像のクオリティが全く違ってくることに気づくかもしれません。つまり呪文は適当に打つのではなく、特定のキーワードを盛り込むなどのコツが必要になってくるというわけです。
呪文の一般的なコツ
まずStable Diffusionの標準モデルの場合の呪文のコツについては下記の記事(外部リンク)が丁寧で詳しいのですが…
書き方としては基本的には英文というよりも単語をカンマ区切りでたくさん書くのがお手軽であり、欲しい絵面を的確に表現している英単語をなるべく多く盛り込むのがベストなようです。
ただし美少女イラストを生成できるモデルなど、使用するモデルによっては必要なコツが全然違う場合もあります。
ネガティブプロンプトについて
それから場合によっては通常のプロンプトだけでなくネガティブプロンプトの指定が重要になることあります。ネガティブプロンプトとは、通常のプロンプトとは逆で生成する画像に含んでほしくない要素を指定するためのプロンプトです。例えばネガティブプロンプトに「worst quality」と記述すると、生成結果は高品質になる傾向があります。
特に美少女イラストを生成する場合はネガティブプロンプトが非常に重要になることが多いのでぜひ使いこなせるようにしておきましょう。
美少女イラストを生成したい場合はさらにコツが必要
そのほか、アニメ風の美少女イラストを生成したい場合は美少女イラスト生成用のモデルや呪文のコツが必要となります。その辺については他の記事で詳しくご紹介していますので、そちらも併せてご覧頂ければと思います。
生成する画像のサイズについて
おすすめの画像サイズ
次に画像生成を行う際に指定する画像のサイズについてですが、基本的には512px程度にしておくのがよいと思います。なぜなら解像度が高い画像ほど生成に時間がかかってしまいますし、生成に使用するモデルによってはいきなり高解像度の画像を生成すると絵が崩れてしまう場合があるからです。
そのことを考慮すると、もしミドルクラスのグラフィックボードをお使いであれば512px程度が品質と生成速度のバランスを見たときに一番よい結果となります。とりあえず大量に生成してその中から気に入ったものを選ぶ…といった方法を採用する場合は、ひとまずそのくらいのサイズで生成しておいて後で高解像度化するのがオススメです。
画像をAIで高解像度化する方法
さてその高解像度化のやり方は主に次の2通りがあります。
- 画像生成AI用ツールに付属している機能を使う(←おすすめ)
- 外部ツールを使う
画像生成AI用ツールに付属している機能を使う場合(おすすめ)
まず、先ほどご紹介した
- Stable Diffusion web UI
- NMKD Stable Diffusion GUI
には生成した画像を高解像度化する機能がついているので、それを使うのが一番手っ取り早いです。ぜひ活用しましょう。
web UIの場合は「Hires.fix」が便利
Stable Diffusion web UIの場合は「Hires.fix」という機能があり、高解像度化しつつディテールを詰められるので便利です。詳しい使い方は下記の記事でご説明していますのでそちらも併せてご覧ください。
またHires.fixとは別に、ディテールはいじらず画像を綺麗に拡大するだけのツールもあります。上手く使い分けましょう。
外部ツールを使う場合
また付属機能だと使い方がよく分からんな…という方には、外部ツールを使うという手もあります。その場合は下記ページで画像拡大用AIの日本語GUI版を無料でダウンロードできるのでそれをインストールするとよいでしょう。
インストールしたら下の画像のように設定を行い「拡大開始」ボタンを押しましょう。
数秒で画像ががきれいに拡大されます。
モデルファイルやVAEについて
ところでStable Diffusionを使い込んでいるとモデルファイルやVAEを変更したくなる場合があるので、その辺について少しだけ解説しておきます。
画像生成AIにおけるモデルやVAEとは?
まず画像生成AIにおけるモデルとは「画像を出力するためにAIが学習した仕組み」のことを指します。またVAEとはザックリ言えば「生成する画像のクオリティを上げるためのもの」のことです。
Stable Diffusionはオープンソースのモデルなので、たくさんの派生モデルが存在しネット上のサイト(Hugging FaceやCivitai等)で配布されています。これらのモデルは単体で配布されていたり、VAEとセットで配布されていたりします。
基本的にはVAEがなくても画像を生成できますが、モデルに合ったVAEを使用することで生成する画像のクオリティがアップする場合があります。なのでダウンロードの際はモデルファイルだけでなくVAEがあるかどうかもついでにチェックするようにしましょう(※モデルによってはVAEが内蔵されている場合もあってややこしいので、説明書をよく確認してください)。
ckpt形式とsafetensors形式
次にネット上で配布されているStable Diffusion系のモデルファイルには
- ckpt形式
- safetensors形式
の2種類があります。最初はckpt形式が主流だったのですが、ckptには
- 読み込みが遅い
- 悪意のある処理が埋め込まれる可能性がある
というヤバい欠点がありました。そこで最近ではそのような欠点を克服したsafetensors形式のファイルが主流です。未だにckpt形式しかないモデルもありますが、迂闊に変なckptファイルを使うと思わぬ結果になるかもしれないのでなるべくsafetensors形式のモデルを使うようにしましょう。
おまけ:Stable Diffusion界隈で話題の技術について
最後に、おまけとしてStable Diffusion界隈で話題になっている技術を2つご紹介しておきます。
- ControlNet
- LoRA
ControlNet
まずControlNetは、端的に言えば「被写体に好きなポーズを取らせることができる技術」です。Stable Diffusionで画像生成を行っているとポーズ指定で苦労することが多いのですが、ControlNetを使えば好きなポーズの画像を決め打ちで出せるので便利です。
ControlNetの詳しい使い方は下記でご紹介していますので、ご興味があればそちらもご覧ください。
ちなみにControlNetは非常に応用が利く技術になっており、ポーズ指定以外にも
- 適当な線画を清書したり、線画に着色したりする
- キャラクターの特徴を維持したまま色や画風だけ変える
- 落書きからリアルなイラストを作る
といったこともできます。使いこなせるようになるととても便利なのでぜひ覚えておきましょう。
LoRA
次にLoRAは「既存のモデルに新しい被写体を学習させる手法」です。Stable Diffusionで特定のキャラクターを出そうとしても苦労することが多いのですが、LoRAを使って学習を行うと好きなキャラクターや絵柄を決め打ちで出すことができるようになります。
LoRAの概要や導入手順は少し難しいので中級者向けとなりますが、下記の記事で一通り丁寧に解説していますのでそちらも併せてご覧頂ければと思います。
おわりに
以上、Stable Diffusionの概要から基本的な使い方までを一通りご紹介しました。
Stable Diffusionをローカル環境にインストールすれば好きな画像を無料でいくらでも生成できて便利ですし、ご紹介したソフトを使えば環境構築や使い方も難しくありません。ぜひこの機会に導入にチャレンジしていただき、画像生成ライフを楽しんでいただければと思います。
なおStable Diffusionの初心者向けガイドを書いたので、もしStable Diffuisonを使っていて分からないことがあればそちらも参考になさってください。
この記事が何かしら参考になれば幸いです。