【音声生成AI】Barkの使い方!テキストからリアルな音声を生成しよう【日本語音声も生成可能】

AIでリアルな音声を生成 Barkの使い方 その他のAI

今回は音声生成AIに関する話題で

テキストからリアルな音声を生成できる「Bark」の導入方法・使い方

をまとめてみるという内容になっています。

テキストから音声を生成するツールとしては「VOICEVOX」等の読み上げソフトが有名ですが、しばらく前にそれらとは一線を画する「Bark」という無料の音声生成AIが登場しました。しかし私の観測範囲ではほとんど話題になっていないようだったので、これは記事を書いて皆さんに広めておいた方がいいなと思った次第です。

そこでここではこのBarkについて

  • 概要と導入方法
  • 基本的な使い方

を丁寧にご紹介していきますね。

Barkの概要

公式ページ

GitHub - suno-ai/bark: 🔊 Text-Prompted Generative Audio Model
🔊 Text-Prompted Generative Audio Model. Contribute to suno-ai/bark development by creating an account on GitHub.

Barkとは?

Barkは汎用性が高い無料の音声・サウンド生成AIです。主な特徴は次のとおり。

  • テキスト(プロンプト)からリアルな音声を生成
  • 英語をはじめ多言語に対応。日本語音声も生成可能
  • 笑い・ため息・すすり泣きなど非言語のサウンドや、歌や効果音などのサウンドも生成可能(…だそうですが、試した限りでは上手くいきませんでした)

テキスト→サウンド生成というとそこまで驚きはないかもしれませんが、多言語に対応している点や歌まで作れちゃうという点は画期的ですね。ただ私が試した限りでは謳い文句通りの歌や非言語サウンドは上手く生成できなかったので、基本的には読み上げに使うのがよさそうです。

ちなみに以前は商用利用不可だったのですが、最近ライセンスがMITライセンスになり商用利用が可能になりました。

実行に必要なPCスペック

BarkはNVIDIAのグラフィックボードを搭載しているPCで実行することが推奨されています。具体的には12GB以上のVRAMが搭載されているグラボを使うのがいいとのことなので、GeForce RTX3060あたりを使っていると安心です。この辺は画像生成AIと同様ですね(※グラボの選び方は下記の記事で詳しくご紹介しています)。

Stable Diffusion用のグラフィックボードの選び方!美少女イラストを快適に生成しよう
今回も画像生成AIに関する話題で、タイトルの通り Stable Diffusionを快適に動かすためのグラフィックボードの選び方 をご紹介するという内容になっています。 画像生成AIの代表格ともいえるStable Diffusionを動かす...

一応グラボが無くてもCPUを使って動作させることが可能なようですが非常に遅いとのことです。本格的に使うならグラボは必須でしょう。

Barkで実際に生成した音声の例

ではBarkを使うと一体どんな音声を作れるのか?を知って頂くために、私がBarkを使って実際に生成した音声のサンプルを掲載しておきます。

自己紹介(単純な日本語テキスト読み上げ)

男声(v2/ja_speaker_2)

女声(v2/ja_speaker_0)

プロンプト:
こんにちは、私はくろくまです。AIやゲーム開発に興味があり、「くろくまそふと」というブログを運営しています。よろしくお願いいたします。

日本語音声を選択し、普通に日本語を入力するとそのテキストを読み上げた音声が生成されます。

日本語音声は英語と比べるとまだ精度があまり良くないらしくイントネーションや漢字の読みが変な場合もあります。しかしリアルさは十分で、かなり実用的なレベルの音声になっていると言えます。

外人っぽい日本語音声

プロンプト:
Watashi wa kuro kumadesu. Yoroshikuonegaishimasu.

英語音声にローマ字のプロンプトを適用すると外人っぽい日本語になります。

「Bark GUI」の導入方法

さて概要やサンプルはこれくらいにして、ここからBarkの導入方法についてご説明します。Barkは公式ページ通りに導入してもいいのですが、「Bark GUI」というツールを使うと音声生成が簡単になるのでここではそのツールのインストール~起動までの手順を解説しますね。

GitHub - C0untFloyd/bark-gui: 🔊 Text-Prompted Generative Audio Model with Gradio
🔊 Text-Prompted Generative Audio Model with Gradio - C0untFloyd/bark-gui

主な手順は次のとおり。

  1. 簡単インストーラーをダウンロードする
  2. インストーラーを実行する
  3. 「windows_run.bat」を実行する

それぞれ詳しく見ていきましょう。

【注意】
この方法でインストールを行う場合、インストール先のストレージの空き容量が19GB程度必要になります。十分な空き容量を確保したうえで実行してください。

手順1:簡単インストーラーをダウンロードする

まずBark GUIには簡単な1クリック版インストーラーが用意されているので、Windowsをお使いの場合はそれを使うと便利です。下記のページに「bark_(バージョン)_win.exe」というインストーラーがあります。最新版をダウンロードしてください。

Releases · C0untFloyd/bark-gui
🔊 Text-Prompted Generative Audio Model with Gradio - C0untFloyd/bark-gui

Bark GUI 1クリック版インストーラーのダウンロード方法

手順2:インストーラーを実行する

そうしたらそのインストーラーを実行します。インストール先を聞かれるので好きなフォルダを選んでください。すると最低限必要なファイルだけが展開されます。

手順3:「windows_run.bat」を実行する

ここまでできたら、インストール先フォルダの中にある「windows_run.bat」を実行します。すると黒い画面が出て他に必要なファイルのダウンロード&インストールが始まります。

途中で「NVIDIAのグラボを搭載しているか?」と聞かれるので、お使いのPCに搭載されているなら「Y」と入力してEnterを押しましょう。

NVIDIAのグラボを持っているか?という質問

インストールでは色々なファイルをインストールするほか、巨大なサイズのファイルをいくつもダウンロードするためかなり時間がかかります。気長にお待ちください。

ブラウザが起動して「Bark UI Enhanced」という画面が出ればインストール完了です。以降は「windows_run.bat」を実行すればBark GUIが起動します。

Bark GUIの画面

Bark GUIの基本的な使い方

ではさっそくBark GUIを使ってみましょう。使い方はシンプルなのですぐに使いこなせるようになるはずです。

音声生成の流れ

まず、とりあえず音声を生成したい場合は

  1. Input Text欄にテキストを入力する
  2. Voiceメニューから好きな声を選択する
  3. Generateボタンを押す

という手順を踏むだけです。

Bark GUIでの音声生成手順

これで数十秒~1分程度で音声ファイルが生成されます。生成されたファイルは下記のフォルダ内に保存されます。

bark_win\bark-gui\Outputs

声の選択

Barkで選べる声はかなりの数があり、日本語だけでも10種類程度の中から好きなものを選ぶことができます。ドロップダウンメニューでは言語と番号だけの表記で分かりづらいので、どれがどういう声なのか知りたい場合は下記のページをご覧いただくと分かりやすいでしょう。

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.
A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team

(参考)プロンプトのTips

最後に、Barkではプロンプトに特定の記号・キーワードを使用すると歌など特殊な音声を生成することができるといわれています。ただ私が試した限りでは上手く効かなかったので参考程度にご紹介しておきます。

  • [laughter]:笑い声を追加
  • [clears throat]:咳払いを追加
  • ♪でプロンプトを囲う:歌声の生成
  • [MAN]または[WOMAN]:男声・女声の切り替え

おわりに

以上、リアルな音声を生成できるBarkの導入方法や使い方をご紹介しました。今のところは読み上げ用途に使うのがベストだと思いますが、汎用性が高い技術とのことで今後他のサウンドに関しても生成精度が向上していくと思うので、アップデートに期待したいですね。

この記事が何かしら参考になれば幸いです。