今回は音声生成AIに関する話題で、最近注目されている
Style-Bert-VITS2のインストール方法や使い方
を丁寧にご紹介するという内容になっております。
音声生成AIというと従来は日本語に対応しているものが少なく、あったとしても不自然な喋り方になってしまう場合がほとんどでした。しかしそのような中で「Bert-VITS2」というAIが自然で流暢な日本語を生成できるようになったぞ、ということで一部界隈ではかなり話題になったようです。
そしてその後、日本人向けに改良された「Style-Bert-VITS2」がリリースされ注目を集めています。ここではそのStyle-Bert-VITS2のインストール方法や基本的な使い方について詳しくご説明しますね。
Style-Bert-VITS2について
公式ページ
Style-Bert-VITS2とは?
Style-Bert-VITS2はlitagin氏によるBert-VITS2の日本人向けの改良版です。音声生成AIであるBert-VITS2に変更を加えて日本語に特化させたものがStyle-Bert-VITS2となります。
Style-Bert-VITS2では流暢かつ感情豊かな日本語音声を生成できるほか、新しい音声を学習させることも可能です。
音声サンプル
さて「流暢で感情豊かな日本語を生成できる」というとどの程度なのかな?まだ不自然なんじゃないの?…と皆さん思うかもしれませんが、ここで私がStyle-Bert-VITS2を使って実際に作ったサンプルをご用意しましたのでご試聴ください。
テキスト:
こんにちは!私はくろくまです。AIの使い方やゲーム開発に関するノウハウをご紹介するブログを運営しています。よろしくお願いします。
ちょっと感情表現が強すぎる気がしますが、それにしても流暢な日本語ボイスでビックリですよね。Style-Bert-VITS2を使えばこのような音声が簡単に作れるので便利です。
Style-Bert-VITS2のインストール方法(一番簡単なやり方)
ではStyle-Bert-VITS2の概要について知って頂いたところでインストール方法をご説明していこうと思います。やり方は
- GitとPythonを導入してからインストールする方法
- Zipファイルをダウンロードして中身のバッチファイルを実行する方法
の2通りがあります。ただ後者の方が簡単なのでここでは初心者の方向けにそちらをご紹介します。
Zipファイルのダウンロード
まず、下記の公式リリースページから一番新しいバージョンの「Style-Bert-VITS2.zip」をダウンロードします。
Zipファイルの展開・中身の移動
ダウンロードしたファイルの中身を見てみると次の3種類のバッチファイルが入っています。
これらのファイルを、Style-Bert-VITS2をインストールしたい任意のフォルダに移動させましょう。
バッチファイルの実行
ここまでできたらあとはバッチファイルを実行してインストールを始めるだけです。お使いのPCにグラフィックボードが搭載されている場合は「Install-Style-Bert-VITS2.bat」を、そうでなければ「Install-Style-Bert-VITS2-CPU.bat」を実行してインストールを始めてください。
インストールでは様々なファイルをダウンロードすることになるので完了まで十数分かかります。気長に待ちましょう。
その後「Model download is complete. Start the WebUI of the voice synthesis.」というメッセージが出たらインストール完了です。自動的にブラウザが開いてStyle-Bert-VITS2の画面が表示されます。
Style-Bert-VITS2の基本的な使い方
無事にインストールが完了したらさっそくStyle-Bert-VITS2を使ってみましょう。主な使い方は下記のとおり。
起動・終了について
まず起動や終了についてです。インストール完了後の初回起動時はStyle-Bert-VITS2が自動的に起動しますが、それ以降は「Style-Bert-VITS2」フォルダ内の「App.bat」を実行して起動する必要があります。
終了する場合はブラウザとコマンドプロンプトのウィンドウを両方とも閉じてください。ちなみにブラウザのほうは単なるUIなので、ブラウザを閉じただけではStyle-Bert-VITS2の本体は終了しません。コマンドプロンプトのほうも忘れず閉じましょう。
音声モデルの選択・ロード
画面左上の部分で音声モデルを選択したり、そのロードを行ったりします。
デフォルトのモデルは「F」がつくのが女声・「M」がつくのが男声です。好きなものを選んでロードしましょう(※まずモデルをロードしないと音声の生成を行えない点に注意)。
テキスト(セリフ)の入力
読み上げるセリフは画面左側のテキストボックスに入力します。
「改行で分けて生成」にチェックを入れておくと、行ごとに個別に生成処理が行われて適切な感情で読み上げてくれるようになります。
例えば1行目を嬉しそうに・逆に2行目を悲しそうに読み上げて欲しい場合などに便利です。チェックを入れないとセリフを同じ感情で読み上げるみたいですね。
スタイル(声色や感情)の設定
画面右側では、声色や感情を決める「スタイル」を選んだり調整したりすることができます。
「プリセットから選ぶ」を選択しておくと下記の7種類の感情を簡単に指定することができます。
- Neutral(通常)
- Angry(怒り)
- Disgust(嫌悪)
- Fear(恐怖)
- Happy(喜び)
- Sad(悲しみ)
- Surprise(驚き)
また「スタイルの強さ」スライダーでは、スタイルをどの程度強調するかを調整可能です。ただし値を大きくしすぎると音声が変になったり破綻したりすることがあるようです。
音声の合成を実行
ここまでできたらあとは合成処理を実行するだけです。「音声合成」ボタンを押して処理を開始しましょう。お使いのPC環境にもよりますが数秒で音声が生成されます。
生成結果を保存したい場合は、「結果」の右上にある小さなアイコンを押せばダウンロードフォルダに「audio.wav」という名前で保存されます。
おわりに
以上、Style-Bert-VITS2のインストール方法や基本的な使い方についてご説明しました。Style-Bert-VITS2は手軽にハイクオリティな日本語音声を生成できて便利なので、ぜひ皆さんも試してみてください。
この記事が何かしら参考になれば幸いです。