今回は画像生成AI一般に関する話題で、タイトルの通り
を一通りまとめてみるという内容になっています。
画像生成AIの世界は進歩が非常に速くて日々新しい用語が飛び出してくるような状態です。このような中では私も追いつくのがやっとなので、これから画像生成AIに触れてみようかな…という初心者の方からしたら
- この用語は何?聞いたこともないし、調べても情報が出てこないんだけど…
- SNSや掲示板の話が専門用語だらけでサッパリ分からん!!
という状態になりがちだと思います。つまり用語や概念が多すぎるし、しかも新しい用語が続々と登場するのでどんどんハードルが高くなってしまっているのではないかと思いました。
そこでこのような状態を少しでも解消し、初心者の方が画像生成の話題を楽しめるように用語集を作っておいたほうがいいのかなと思い、今回用語を一通りまとめておくことにしました。下記の内容を最後までご覧いただければ少なくとも「全くついていけない」という状態にはならないと思いますので、ぜひ参考にしていただければ幸いです。
Stable Diffusion界隈の用語
基本用語
- 画像生成AI
- Stable Diffusion(SD)
- モデル
- VAE
- マージ
画像生成AI
膨大な量の画像を元に学習を行い、新しい画像を生成する仕組みを獲得した人工知能のこと。
Stable Diffusion(SD)
Stability AIが開発した無料で使える画像生成AI(のモデル)。略してSD。
下記の記事で概要や使い方を丁寧にご説明していますので、まだよく分からないという方はそちらも併せてご覧ください。
モデル
画像を出力するためにAIが学習した仕組みのこと。学習モデル・訓練済みモデルとも呼びます。
Stable Diffusion系のモデルは単一のファイルとして各サイト(Hugging Face、Civitai等)で配布されています。ファイル形式は主に
- ckpt
- safetensors
の2種類がありますが、safetensors形式のほうが読み込み速度や安全性で優れているので、なるべくsafetensors形式のモデルをダウンロードするようにしましょう。
VAE
簡単に言うと生成する画像のクオリティをアップさせるためのファイルです。特に美少女イラスト生成用モデルでは重要で、これがないと色が変になる場合があります。
ただしモデルによっては予めVAEが組み込まれており、別途VAEをダウンロードする必要がないものもあるので説明書をよく読みましょう。
マージ
モデル同士を合体させて新たなモデルを作ること。合体させたモデルはマージモデルと呼ばれます。
マージのやり方は簡単なので初心者の方でも自分好みのモデルを作ることができます。詳細は下記の記事をご覧ください。
ツール関係
- AUTOMATIC1111(単に1111とも)
- web UI
- ComfyUI
- NMKD
AUTOMATIC1111(単に1111とも)
「Stable Diffusion web UI」の開発者の方のハンドルネームですが、ツール自体の通称としても使われます。Stable Diffusion web UIはStable Diffusionを簡単に扱うために開発されており、拡張性が高く界隈では圧倒的に人気があるツールです。詳しいインストール方法や使い方については下記の記事をご覧ください。
なおブラウザ経由で操作できる「ウェブUI」は何種類かあるので、AUTOMATIC1111氏が開発したウェブUIの場合は「AUTOMATIC1111版」とか、単に「1111」などと呼ぶことが多いです。
ウェブUI
ブラウザ経由でStable Diffusionを簡単に使うことができるツールの総称。ただし一般的にはAUTOMATIC1111氏による「Stable Diffusion web UI」のことを指します。
ComfyUI
ノードベースで視覚的に画像生成処理を組めるウェブUI。詳しいことは下記の記事でご説明していますので、そちらも併せてご覧ください。
NMKD
Stable Diffusionを手軽に使えるWindows用ソフト「NMKD Stable Diffusion GUI」のこと。インストール方法や使い方は下記の記事でご紹介しています。
モデルに関する用語
- Waifu Diffusion(WD)
- Anything(any)
- fp16・fp32
- pruned
Waifu Diffusion(WD)
美少女イラスト生成用モデル。アニメ風の美少女イラストを生成できるモデルとしては先駆者的な存在です。
Anything(any)
特に人気が高い美少女イラスト生成用モデル。他の色々な美少女イラスト生成用モデルの元になっています。ハイクオリティな美少女イラストを生成できることで有名ですが、バージョンごとに作者(?)が違うことがある等なかなか複雑なことになっている模様。
モデルについての詳しい話は下記の記事に書いたのでそちらもご覧いただければと思います。
fp16・fp32
モデルの精度を表す表記。精度の高さは「fp16 < fp32」となっていますが、画像を生成するだけならほとんど差はなく、fp32のほうがファイルサイズが大きいので普通に使う場合はfp16を選ぶのがよいでしょう。
pruned
無駄な部分を「剪定した」(=pruned)モデルについている表記。これがついているモデルは、そうでないモデルに比べてファイルサイズが小さくなっています。
画像生成に関する用語
- txt2img(t2i)
- img2img(i2i)
- プロンプト(呪文)
- ネガティブプロンプト
- CFGスケール
- ステップ数
- Clip Skip
txt2img(t2i)
「text to image」の略語。さらに略して「t2i」ともいいます。プロンプトから画像を生成すること。
img2img(i2i)
「image to image」の略語。さらに略して「i2i」ともいいます。画像とプロンプトから別の画像を生成すること。
プロンプト(呪文)
どのような画像を生成するかを指定するためのテキスト。一般的に呪文と呼びます。
ネガティブプロンプト
生成される画像に含めてほしくない要素を指定するためのテキスト。例えばネガティブプロンプトに「worst quality」と入れると、低品質な画像が生成されるのを防ぐことができます。
CFGスケール
どの程度プロンプトに従った画像を生成するかを決める値です。この値を大きくするとなるべくプロンプト通りの画像を生成するようになりますが、大きすぎると絵が崩れることがあります。なおCFGは「Classifier-Free Guidance」の略。
ステップ数
ノイズ除去の繰り返し数。値が大きいと画像がより具体的になる傾向がありますが、生成に時間がかかるようになります。絵が崩れるためこの値は小さすぎても大きすぎてもダメです。
Clip Skip
これは一言で説明するのがすごく難しい用語なのですが、簡単に言うとStable Diffusionの処理方式に関する値です。分かりやすい説明は下記ページにあります(※英語)。
実写系は「1」、美少女イラスト系は「2」に設定することを推奨しているモデルが多いです。Clip Skipの値を変えると生成される画像も変わるため、興味があれば推奨値以外の値を試して変化を楽しんでみるのも一興。
技術
- ControlNet(CN)
- LoRA
- DreamBooth
ControlNet(CN)
画像生成において、被写体のポーズを指定できる技術。ポーズ以外にも色々な応用が利くので覚えておくと表現の幅が広がります。下記の記事で詳しい紹介をしているので、ご興味があればそちらも併せてご覧ください。
LoRA
既存のモデルに新しい被写体を学習させる追加学習の手法の一つ(または、この手法によって作成したモデルを指す場合もあります)。「Low-Rank Adaptation」の略。通常のtxt2imageだと特定のキャラクターや画風・シチュエーション等を決め打ちで出すのは非常に困難なのですが、LoRAで予め学習させておけば欲しい画像を生成しやすくなります。
比較的性能が低いグラボで学習を行えたり、出力されるモデルが非常に軽量であったりすることから現在主流の追加学習法となっています。詳しい話は下記の記事をご覧ください。
DreamBooth
追加学習の手法の一つ。LoRAよりも前に登場した手法で、比較的精度は高いようですが大量のVRAMが必要になる点や、作成したモデルのファイルサイズが巨大になる点から現在ではあまり使われていない印象です。
画像生成AIに関するその他の用語
ハードウェア
- グラフィックボード(グラボ)
- VRAM
グラフィックボード(グラボ)
主に映像を出力するためのPCのパーツのこと。3Dゲームを滑らかに描画するために必要なパーツですが、画像生成AIを自分のPC(つまりローカル環境)で動かす際にも必須です。
値段はPCパーツの中でも特に高く、画像生成に使えるグラボを買うなら最低でも5万円は必要になります。画像生成のためのグラボの選び方は下記の記事でご紹介しているのでそちらも併せてご覧ください。
VRAM
グラフィックボードに搭載されている専用の記憶領域(メモリ)のこと。一般的に画像生成AIを自分のPCで実行する場合にはこのVRAMの容量が非常に重要で、10GB以上あるのが望ましいとされています。
Webサービス・Webサイト
- Novel AI(NAI)
- Midjourney
- Colab
- Hugging Face
- Civitai
Novel AI(NAI)
有料のオンライン画像生成サービスの一つで、美少女イラスト生成の先駆け的な存在。このサービスの登場で「AIによる美少女イラスト生成」という新ジャンルが盛り上がったといっても過言ではありません。
今はローカル環境で画像生成する人が多いのでだいぶ下火なようですが、オンラインでクオリティの高い美少女イラストを簡単に生成できるということもあり、初心者にはとっつきやすいサービスとなっています。
Midjourney
こちらも有料のオンライン画像生成サービスの一つ。画像生成AIブームの火付け役になった存在です。Stable Diffusionとは別物の独自の画像生成AIであり、特にリアル系の画像生成に長けているという特徴があります。
Colab
Google Colaboratoryのこと。ブラウザから直接Python(=プログラミング言語の一種)を記述・実行することができるサービスで画像生成AI用の環境を構築することも可能です。一部制約はありますがColabのサーバーの性能は良いので、ローカル環境で画像生成を行えない場合(つまりグラボを持ってないか、またはグラボの性能が低い場合)には重宝します。
Hugging Face
AIに関するファイル等を配布しているサイト。Stable Diffusion系のモデルも多数配布されています。
Civitai
Stable Diffusion系のモデル等が多数配布されているサイト。大人向けのモデル・サンプル画像がかなり多いので閲覧には注意が必要です。Hugging Faceに比べると無法地帯っぽい印象で、かなりきわどいモデルが配布されては速攻消される…ということが日常茶飯事な気がします。あとサーバーが弱いのか動作が不安定なこともしばしば。
その他俗語
- AI術師
- ゲームエンド
- NSFW
- ホーチミンおじさん
- 革ジャン
- マスピ顔
- チェリーピッキング
- 赤ちゃん
- 浦島太郎
AI術師
AIで美少女イラスト等を生成している人が名乗っている肩書き。よく「AI絵師」と呼ばれることもありますが
という意見があることから(呼ぶ側・呼ばれる側の双方ともに)「AI絵師」という用語に違和感を覚える人は多いようです。このような次第で最近では、少なくとも自称する際には「AI術師」のほうを使うのが浸透している模様です。
ゲームエンド
革新的な新技術が出たときに使われるキーワード。きっかけはこのツイート。
NSFW
職場閲覧注意(=Not Safe For Work)の略で、大人向けのイラストなどに付けられるタグです。画像生成するときにキャラクターを脱がせたい場合はプロンプト欄に、逆に健全なイラストにしたときはネガティブプロンプト欄にこのキーワードを記入するとよいでしょう。
ホーチミンおじさん
Stable Diffusion web UIの開発者・AUTOMATIC1111氏のこと。由来はそのアイコンが、ベトナム建国の父ホー・チ・ミンの肖像であることから。
革ジャン
NVIDIAのCEO・ジェンスン・フアン氏のこと。彼がよく革ジャンを着ていることが由来。
マスピ顔
「マスターピース顔」の略。呪文に「masterpiece」(=傑作)というキーワードを入れると出てくるような、AIイラストに典型的な顔立ちのことを指します。
チェリーピッキング
自分にとって都合のよい結果だけを選び、その他の結果を無視すること。画像生成AI界隈では(特に検証などの際に)出来のよい画像だけを選ぶことを言います。
赤ちゃん
初心者のこと。自分で調べ・色々試して早く赤ちゃんを卒業しよう。
浦島太郎
新情報に疎い・もしくは界隈を離れていて新情報を逃していた人のこと。画像生成AI界隈は技術の進歩が異常に速く、頻繁に情報収集しないとあっという間に浦島太郎になってしまうので注意しましょう。
おわりに
以上、画像生成AIに関する用語や略語を一通りまとめました。これらの用語をちょっと知っているだけでも画像生成AI界隈の話をかなり理解しやすくなるので、少々大変ですが一つずつ覚えて頂ければと思います。
この記事が何かしらお役に立てば幸いです。