短い動画を生成できる拡張機能「text2video Extension」の使い方【Stable Diffuison web UI】

今回もStable Diffusion web UIの拡張機能に関する話題で、タイトルの通り

短い動画を生成できる拡張機能「text2video Extension」の使い方

をご紹介するという内容になっています。

最近は画像生成AIが急速な進歩を遂げているわけですが、今度は動画を自動生成できる技術が登場して海外の掲示板「reddit」等で注目を集めています。しかもいつも通り速攻でStable Diffusion web UIから動画生成を行える拡張機能「text2video Extension」が登場したので、私も実際に試してみました。

ここではこの拡張機能について

概要・具体的にどんな動画を生成できるのか
Stable Diffusion web UIへのインストール方法
基本的な使い方

を丁寧にご説明していきますね。

2023/04/25追記：
アップデートで新機能の追加や機能改善・拡張機能の名称変更などがあったので記事の内容を更新しました。

「text2video Extension」の概要
Stable Diffusion web UIへのインストール方法
1. 拡張機能リストからtext2videoをインストールする
2. 動作に必要なモデルをダウンロードして所定のフォルダに入れる
text2video Extensionの使い方
おわりに

「text2video Extension」の概要

公式ページ

GitHub - kabachuha/sd-webui-text2video: Auto1111 extension implementing text2video diffusion models (like ModelScope or VideoCrafter) using only Auto1111 webui dependencies

Auto1111 extension implementing text2video diffusion models (like ModelScope or VideoCrafter) using only Auto1111 webui ...

text2video Extensionとは？

「text2video Extension for AUTOMATIC1111’s StableDiffusion WebUI」（※長いので以下略称を使います）はStable Diffusion web UI用の拡張機能で、小さくて短い動画を自動生成することができます。執筆時点ではまだ登場したばかりで低解像度・低精度の動画しか生成できませんが、この拡張機能の登場でいよいよ一般人でも手軽に動画を自動生成できる時代に突入した感があってとてもワクワクします。

なおStable Diffusion web UIをまだインストールしていないよ、という方は下記の記事でインストール方法や使い方などを丁寧に解説しているので、そちらも併せてご覧ください。

「Stable Diffusion web UI」のインストール方法・日本語化・使い方まとめ（AUTOMATIC1111版）

今回も画像生成AIに関する初心者向けの話題で、タイトルの通り「Stable Diffusion web UI」のインストール方法・日本語化の方法・使い方をまとめてみるという内容になっています。画像生成AIの代表格であるStable Diff...

実際に生成した動画のサンプル

さて百聞は一見に如かず…ということで、実際に私が生成した動画のサンプルを掲載しておきます。

プロンプト：a bear sorrounded by many gold

クマが大量の砂金（？）の上を歩いている短い動画が生成されました。執筆時点では生成される動画は内容・画質共にクオリティがまだまだ低いのですが、画像生成AIの進歩を見ていると動画も近々ハイクオリティなものが作れるようになると思います。その辺は期待大ですね。

追記：
アップデートによってもう少し長い動画も作れるようになりました。12GBのVRAMがあれば125フレームまでの動画を作れるようです。

Stable Diffusion web UIへのインストール方法

text2video Extensionをweb UIにインストールするには次の2つの作業が必要です。

拡張機能リストからtext2videoをインストールする
動作に必要なモデルをダウンロードして所定のフォルダに入れる

拡張機能リストからtext2videoをインストールする

まずは他の多くの拡張機能と同様に、web UIの拡張機能リストからインストールを行います。web UIの拡張機能タブ→「拡張機能リスト」→「読込」ボタンを押すと、一覧にtext2video Extensionが出てくるので「インストール」ボタンを押しましょう（※もちろん無料です）。

インストールできたらweb UIを再読込してください。

動作に必要なモデルをダウンロードして所定のフォルダに入れる

次に、動作に必要なモデル等をダウンロードして所定のフォルダに入れます。この拡張機能は現時点では

ModelScope
VideoCrafter

の2つのモデルに対応しているので、それぞれ必要なファイルを用意しておきましょう。

ModelScope

必要なファイルは次の4つです。

VQGAN_autoencoder.pth
configuration.json
※ダウンロード方法の注意：分かりづらいですが、後述するページにある「↓」と書かれた部分のリンクを押してファイルを直接ダウンロードしてください。
open_clip_pytorch_model.bin
text2video_pytorch_model.pth

ファイルは下記ページからダウンロードできます。

ali-vilab/modelscope-damo-text-to-video-synthesis at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

また、グラフィックボードのVRAM容量が6GB以下の場合は下記ページに軽量版モデルがあるのでそちらを使ってください。

kabachuha/modelscope-damo-text2video-pruned-weights at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

ダウンロードできたらこれを下記フォルダに移動させましょう（※「ModelScope」フォルダ以下がない場合は自分で作る必要があります）。

webui\models\ModelScope\t2v

VideoCrafter

下記ページからモデル（model.ckpt）をダウンロードして所定のフォルダに入れます。フォルダがない場合は自分で作ってください。

kabachuha/videocrafter-pruned-weights at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

webui\models\VideoCrafter

text2video Extensionの使い方

ではここからtext2video Extensionの使い方についてご説明していきます。

text2videoタブ

拡張機能が正常にインストールされると、「text2video」タブが表示されるのでそれを選択しましょう。すると下のような設定画面が出てきます。

主な設定項目は次のとおりです。

Model Type：
Modelscope・VideoCrafterのどちらを使うかを選択します。
プロンプト・ネガティブプロンプト：
画像生成のときと同様にプロンプトを指定します。ただし、執筆時点では複雑なプロンプトは指定できないようなので簡潔に書きましょう。
frames：
動画のフレーム数（＝動画を構成する静止画の枚数）。この値と、後述するフレームレートの設定によって動画の長さが決まります。
幅・高さ：
動画の解像度。グラフィックボードのVRAMが少ない場合は小さめに設定しておいた方がよいでしょう。