「ERNIE-Image」の導入方法・使い方！プロンプトに忠実な高品質の画像をローカル生成しよう【画像生成AI】

今回は画像生成AIに関する話題で

プロンプトに忠実な高品質の画像を生成できる「ERNIE-Image」の導入方法と使い方

をわかりやすく丁寧にご紹介するという内容になっております。

画像生成AIでテキストから画像生成（t2i）するときはなかなか思い通りの画像が生成されず、何度も「ガチャを引く」羽目になった経験のある方は多いかと思います。もちろん入力がテキストなのでそこから思い通りの画像ができるというのはなかなか難しいとは思いますが、そうは言っても従来の画像生成AIは打率があまり高くなくて皆さん「もうちょっと何とかならんかね…」と感じているのではないでしょうか。

そのような中で先日、中国のBaiduがプロンプト追従性および汎用性の高い画像生成AI「ERNIE-Image」（&比較的高速なERNIE-Image-Turbo）をリリースしたことがローカル民の間で話題になっています。私も早速試してみたので、ここではこのERNIE-Imageの導入方法や使い方について詳しく書いていきますね。

ERNIE-Imageの概要
ERNIE-Imageで生成した画像の例（プロンプトつき）
画像のジャンルによるERNIE-Imageの得意・不得意について
ERNIE-Imageの導入方法（ComfyUI）
ERNIE-Imageの使い方
1. プロンプトエンハンサーを使う？使わない？
おわりに

ERNIE-Imageの概要

公式紹介ページ

Introducing ERNIE-Image

ERNIE-Imageとは？

ERNIE-Imageは中国のBaiduの研究チームが開発した、テキストから画像を生成できるタイプの画像生成AIです。主な特徴は次のとおり。

短いプロンプトから詳細なプロンプトを自動生成する「プロンプトエンハンサー」が付属しており、短いプロンプトでもモデル本来の性能を発揮した生成結果を得られる
英語と中国語のテキストを正確に描画できる
写実的な画像からイラストまで幅広いスタイルの画像生成に適している
通常版と高速版（ERNIE-Image-Turbo）の2種類がある

短いプロンプトでも意図に近い高品質な画像を得られる機能が搭載されていたり、汎用性が高かったりする点が魅力的ですね。また（通常版と比べると）高速に動作するTurbo版が用意されているのも嬉しいポイントです。

なおライセンスは比較的ゆるい「Apache license 2.0」で、オープンなモデルなので一定以上のスペックのPCをお持ちであれば誰でもローカル環境で動かすことができます。

ローカル環境で動かすのに必要なPCスペック

ERNIE-Imageは比較的大型のモデルなので、ローカル環境で動かすにはミドルスペック以上のPCが必要です。最低でも下記の性能は欲しいところですね。

VRAM12GB以上を搭載したグラフィックボード（→最近の画像生成AIを使うなら12GB以上のVRAMはほぼ必須）
メモリ32GB以上（→VRAMに次いで重要、当然多いほど良い）
ストレージの空き容量30GB以上

ちなみに私のPCはちょうど上記と同じくらいのスペックなのですが普通に動作しました。それ以上のスペックのPCをお持ちの場合は快適にローカル生成できると思います。

ERNIE-Imageで生成した画像の例（プロンプトつき）

では私がERNIE-Imageで実際に生成したサンプル画像をご覧いただこうと思います。

写実的な画像

プレゼンを行っているスーツを着た黒い熊

ERNIE-Imageで生成した画像の例（スーツを着た黒い熊がプレゼンを行っている様子）

プロンプト：
A black bear, dressed in a neat black suit and tie, is confidently giving a presentation on a stage in a clean, white hall, microphone in hand. The bear has the head of a bear and the body of a tall, muscular human. There is a presentation table in front of the bear, and the bear is presenting slightly to the right of the screen. The large presentation screen has the words "KurokumaSoft is a tech blog about image generation AI" written in bold letters.

（日本語訳）
こぎれいな黒いスーツとネクタイを身に着けた黒い熊が、白くて清潔なホールの壇上でマイクを持って自信に満ち溢れたプレゼンを行っている。熊は頭が熊で体は筋肉質な背の高い人間のような恰好をしている。熊の前には講演用のテーブルがあり、熊は画面やや右側でプレゼンしている。プレゼンの大きな画面には「KurokumaSoftは画像生成AIに関するテックブログです」と太字で書かれている。

まずはじめに、従来の画像生成AIのような「カンマ区切りで単語を列挙するプロンプト」ではなく自然言語な長文のプロンプトを使ってリアルな画像の生成を試してみました。結果としては思っていたのとは割と違う画像が生成されることが多く、生成結果もあっと驚くほどではない印象だったので思わず「なんか使い方を間違えたかな？」と思いました（※目玉機能のプロンプトエンハンサーは長文プロンプトの場合は使う必要はなさそうだ…としばらくしてから気づきました）。

ただ確かに画像としてはリアルですし比較的長いテキストの描画性能はかなりよさそうだ、という点は確認できました。

森を背景にした、黒い熊がモチーフの女子高生のポートレート

プロンプト：
A realistic portrait of a Japanese high school girl in her school uniform, wearing cute black bear ears and bear gloves, She is smiling and waving to the viewer, The background is a bright and beautiful forest.

アニメ風の美少女イラスト

実写風のリアルな画像はこのくらいにしておいて、多くの方にとって本命であろう美少女イラスト生成の実力を見てみましょう。

黒いクマ風パーカーを着た美少女が森の中で美味しそうにラーメンを食べているイラスト

ERNIE-Imageで生成した画像の例（ラーメンを美味しそうに食べるアニメ風美少女1）

ERNIE-Imageで生成した画像の例（ラーメンを美味しそうに食べるアニメ風美少女2）

プロンプト：
anime-screenshot, 1girl, An anime girl is eating hot ramen, She is wearing a black hoodie with bear ears and a black skirt, She looks very happy and satisfied, She is sitting in a chair, The background is an anime-style forest.

まずはAnimaのときに試したプロンプトを流用して「うまそうにラーメンを食べているアニメ風美少女」のイラストを生成してみました。

アニメ風イラストを実際に生成してみると、なんとこちらは実写風の画像生成時と比べてクオリティが高い画像が生成される確率が高いことが分かりました。よく見ると変な部分があったり「なんか最近のAIっぽい画風だな」という印象があったりしますが、このレベルなら出来の良い画像だけをわざわざ選別しなくてもいいかなと思えますね。特に、従来の画像生成AIと比較すると手や箸・麺の部分などの打率は非常に高く毎回崩れずきちんと描画される点は驚きです。

マンガ風のセリフが入った美少女イラスト

ERNIE-Imageで生成した画像の例（マンガ風の吹き出しセリフ付きの美少女イラスト）

プロンプト：
A manga-style illustration of a cute, anime-style Japanese high school girl in a school uniform, smiling and saying, "You should check out KurokumaSoft blog and master image generation!"

「君もくろくまそふとブログを見て画像生成をマスターしよう！」という旨のことを言っている女子高生の美少女イラストを生成してみました。先ほども書いた通り長文のテキストの描写力はかなり良いようで、（たまに変なテキストが入ることもありますが）きちんとマンガ風のセリフが入ったイラストが生成されました。

4コママンガ風の画像

ERNIE-Imageで生成したマンガの例（森を歩いていた美少女がクマに襲われるが、逆にやっつける）

プロンプト：
A multi-panel comic strip in the style of Japanese anime. A cute girl wearing a black hoodie and a black skirt is walking in the woods when a large brown bear attacks her, but she throws the bear to the ground and defeats it.

「マンガ風のセリフをうまく描画できるならマンガも描けるのでは？」と思って試しにマンガ風の画像の生成を試したらそれっぽい画像が出てきました！よく見ると変な部分はありますがちゃんと4コマ漫画になっていますし、英語のセリフや擬音語もきちんと入っているのはすごいですね。

ちなみにマンガ風画像の生成に関してはプロンプトエンハンサーが大活躍してプロンプトをいい感じにしてくれたようです。私が試した限りではエンハンサーをOFFにした状態で↑のプロンプトで画像生成してもこのレベルの画像は出てきませんでした。

ちびキャラ風イラスト

プロンプト：
A cute illustration of a chibi-style anime character, a black bear motif, wearing a black hoodie and black skirt, in a forest

お次はちびキャライラストの生成を試してみました。しかし（かわいいといえばかわいいけど）思っていたようなイラストはなかなか生成されませんでした。ちびキャラを生成するなら他のモデルを使ったほうがよさそうです。

美少女フィギュア風の画像

黒いパーカーを着たクマ風の美少女のフィギュア風画像

プロンプト：
portrait of an anime-style female character figure, look at viewer, black hoodie and skirt, white background, bear ears, chibi, cute, smiling

フィギュア風画像は生成できないことはないけどあまり得意ではない、といった感じでした。フィギュア風画像をローカル生成する場合もやはりZ-Image-Turbo等の他のモデルのほうがいい気がします。

画像のジャンルによるERNIE-Imageの得意・不得意について

サンプル画像からわかるように、ERNIE-Imageは汎用性が高いモデルですが生成する画像のジャンルによって得意不得意はあるようです。私が試した限りでは下記のような印象でした。

画像のジャンル	生成される画像のクオリティ
写実・リアル系	○普通（他のモデルと比較すると驚くほどのクオリティではない）
美少女イラスト	◎かなり良い
マンガ風画像	◎生成できる（他のローカル用モデルではなかなか生成できない）
ちびキャラ	△イマイチ
美少女フィギュア風画像	△イマイチ

ERNIE-Imageの導入方法（ComfyUI）

さて前置きが長くなってしまいましたがここからが本題です。まずはERNIE-Imageの導入方法を解説していきます。主な手順は次のとおり。

ComfyUIのインストール（※既に導入済の場合はアップデート推奨）
ERNIE-Image用のワークフローを導入する
必要なモデルをダウンロードして所定のフォルダに入れる

それぞれ詳しく見ていきましょう。

手順1：ComfyUIのインストール（※既に導入済の場合はアップデート推奨）

まず、ERNIE-Imageを手っ取り早く動かすには「ComfyUI」というツールを使うのが一番です。そこで「ComfyUIって何だ？」とか「聞いたことはあるけどまだインストールしてないよ」という方は、下記の記事を参考にしてComfyUIをインストールしましょう。

ただし上記の記事では便利なデスクトップ版をおすすめしていますが、執筆時点ではデスクトップ版のComfyUIはERNIE-Imageに対応していないようなので、今すぐ試したい！という方はすぐに更新されるポータブル版のComfyUIをインストールしてください（※デスクトップ版のほうは更新にラグがありますが近日中に対応すると思います）。ポータブル版の導入方法はComfyUIの公式ページに書いてあります。

ComfyUI (ポータブル版) Windows - ComfyUI

このチュートリアルでは、ComfyUI Portable のダウンロード方法、使用方法、および対応するプログラムの実行方法について説明します。

手順2：ERNIE-Image用のワークフローを導入

次にERNIE-Image用のワークフローを導入します。やり方は簡単で、まずComfyUIの画面左の「テンプレート」を選択し…

検索バーに「ernie」と打ち込んで出てきたワークフローを開くだけです。

既に書いた通りERNIE-Imageには通常版とTurbo版の2種類があり、それぞれ異なるテンプレートが用意されています。使い方は使用するモデルが違うだけで基本的に全く同じなので好きなほうを選んでください。

手順3：必要なモデルをダウンロードして所定のフォルダに入れる

ワークフローを開くと「モデルが足りません」的なエラーが出ると思いますので、ひとまず「すべてダウンロード」します。

見てのとおりかなり巨大なモデルを複数ダウンロードすることになり、お使いのネット回線速度にもよりますがダウンロードにはしばらく時間がかかります。気長に待ちましょう。

なおポータブル版の場合はダウンロードしたモデルファイルは一般的な「ダウンロード」フォルダに入ると思います。そこでダウンロードが完了したらモデルファイルを所定の場所に移動させる必要があります。それぞれ下記のように移動させましょう。

ernie-image.safetensors：
ComfyUI\models\diffusion_models

ministral-3-3b.safetensors：
ComfyUI\models\text_encoders

ernie-image-prompt-enhancer.safetensors：
ComfyUI\models\text_encoders

flux2-vae.safetensors：
ComfyUI\models\vae

これで準備OKです。ComfyUIの画面をリロードすればエラーが消えて次のようなシンプルなワークフロー画面が表示されます。

ERNIE-Imageの使い方

ここまでできたらあとは画像を生成するだけです。基本的にはプロンプト（英文または中国語の文）と画像解像度を指定して生成処理を実行すればOK！モデルサイズが大きいせいか生成処理にはやや時間がかかりますが高品質な画像を得られます。

プロンプトエンハンサーを使う？使わない？

ERNIE-Imageの目玉機能の一つであるプロンプトエンハンサーを使うかどうかはプロンプトの長さで決めるといいでしょう。個人的な印象では、長くて詳細なプロンプトの場合はプロンプトエンハンサーを使ってもあまり効果を感じられなかったですし生成時間が余計に長くなった気がしたので、短いプロンプトを使う場合だけ有効化するのがいいのかなと思いました。とりあえず

「短いプロンプトで手軽に画像生成したい」という場合・マンガ風画像を生成したい場合はON
自力で詳しいプロンプトを書きたい場合はOFF

という感じにしておけば間違いないと思います。ご参考まで…。

おわりに

以上、ERNIE-Imageの導入方法や使い方について解説しました。

個人的にこういうモデルはリアル系の画像に強いのかなと勝手に思っていましたが、今回のモデルに関してはどちらかといえば美少女イラストのほうが得意そうだったのは意外かつ嬉しいポイントだなと感じました。比較的大きなモデルなのでミドルスペック以上のPCをお持ちの方向けの画像生成AIではありますが、この機会にぜひ皆さんも試してみてください。

この記事が画像生成のお役に立てば幸いです。