今回は音楽生成AIに関する話題で
高品質な楽曲をローカル生成できる「ACE-Step 1.5」の導入方法と使い方
をわかりやすく解説するという内容になっております。
音楽生成AIというと今までは「Suno」などのオンラインサービスが主流で、音楽をローカル生成できるAIの話はあまり聞いたことがありませんでした。しかし先日ついに音楽をローカル環境で生成できる「ACE-Step」というモデルが登場したことが海外掲示板のReddit等で話題になりました。私もさっそく使ってみたので、ここではこのACE-Stepの導入方法や使い方について詳しく書いていきますね。
ACE-Step 1.5について
公式リポジトリ
ACE-Stepとは?
ACE-Stepは、商用レベルの音楽を一般的なハードウェアで生成できるオープンソースの音楽生成モデルです。高品質な楽曲を誰でも無料で生成できるのが特徴で日本語ボーカルの曲も生成できます。主な特徴をまとめると次のとおりです。
動作に必要なPCスペック
公式ページによると「VRAM容量が4GB程度のグラフィックボードでも動作する」ということなので最近のグラボを積んだPCなら問題なく動作すると思います。
ただし要件としてCUDA 12.8に対応しているグラボが必要ということであまりにも古いグラボでは正常に動作しない可能性があります。
サンプル音源
私がACE-Stepで実際に生成した楽曲をサンプルとして掲載しておきます。ちなみに私は普段メタルしか聞かないので個人的に良し悪しが分かるメタル系の曲ばかり生成しています。
サンプル1:英語男性ボーカルのメタル風の曲
プロンプト:
Extremely fast and aggressive death metal, male growls, heavy distorted guitar riffs, blast beats
歌詞:
[Verse 1]
The sky is bleeding, turning charcoal grey The whispers of the weak have faded away Bound in chains of silence, forged in cold despair I breathe the ashes of the world, it’s all I have to bear
[Pre-Chorus]
No gods to save us, no kings to lead Only the hunger, only the greed But deep in the marrow, a fire begins to grow The crushing weight of gravity is all we’ll ever know
[Chorus]
Rise from the ruins, scream at the sun The age of the hollow has finally begun With fists of iron and a heart made of steel We break the illusions, we make them all feel! Metal is rising! The silence is dead!
[Verse 2]
The gears are grinding, the thunder starts to roar We aren't the victims of their petty holy war Sharpened blades of lightning, striking through the night We are the shadows dancing in the dying light
[Bridge]
Burn it down... Tear it down... Let the thunder shake the ground! GO!
[Chorus]
Rise from the ruins, scream at the sun The age of the hollow has finally begun With fists of iron and a heart made of steel We break the illusions, we make them all feel!
[Outro]
The iron stays... The blood decays... WE SURVIVE!
デスメタルを指定したものの爽やかすぎる曲になってしまいましたが普通に聴けます。グロウル(=デスヴォイス)もきちんと生成できていてびっくりです。
サンプル2:日本語女性ボーカルのメタル風の曲
プロンプト:
Traditional 80s heavy metal, high-pitched female shouts
歌詞:
[Verse 1]
凍てつく街の片隅で 燻り続けた野心 牙を剥く風に吹かれ 独り明日を睨む 正義の仮面を被り 指を差す奴らの声 耳を塞ぐ必要はない 魂が叫んでいるから
[Pre-Chorus]
予定調和の未来など この手で叩き斬れ 紅く染まる三日月が 終わりの合図を告げる
[Chorus]
命を燃やせ 鋼の意志で 絶望の雨に打たれようとも 孤独の海を血に染めて進め 失うものなど 最初からないのさ この胸の鼓動は 誰にも止められない!
[Verse 2]
錆び付いた鎖を断ち 覚醒する獣の血 偽りの安らぎより 気高い死を選べ 夢に見た楽園は 砂のように崩れ去り 残されたのは 握りしめた拳だけ
[Bridge]
闇を裂け! 天を衝け! 朽ち果てるまで、抗い続けろ!
[Chorus]
命を燃やせ 鋼の意志で 絶望の雨に打たれようとも 孤独の海を 血に染めて進め 失うものなど 最初からないのさ
[Outro]
立ち止まるな 振り向くな 光の射す、その先へ…… Break the wall!
どうやらACE-Stepはメタルがあまり得意ではないようで思っていたのとは違う曲になってしまいましたが、イントロが結構いい感じに生成できました。曲展開はなかなか面白くてこういうのもアリかなと思います。日本語歌詞だと漢字の読みなどがおかしくなってしまう部分が多いですがそれっぽい感じには生成できていますね。
ACE-Step 1.5の導入方法(一番簡単なやり方)
ではここからが本題で、まずはACE-Step 1.5の導入方法を解説します。お使いのPCへのインストール方法は「Windows限定の超簡単な方法」と「汎用性が高いが少し複雑な方法」の2つがあるのですが、ここでは前者の簡単なやり方をご紹介しますね。主な手順は次のとおり。
- 圧縮ファイル(7z形式)をダウンロードして展開する
- 同梱のバッチファイルを実行する
手順1:圧縮ファイル(7z形式)のダウンロード&展開
まずは公式が提供しているポータブルパッケージ(7z形式の圧縮ファイル)をダウンロードして展開します。公式リポジトリの「Installation」の項目にダウンロードリンク(下記の赤枠部分)があるのでそこから圧縮ファイルをダウンロードしましょう。

次はこの圧縮ファイルを展開するのですが、おそらくWindowsの標準機能だと7z形式のファイルを展開できないと思います。そこで解凍ソフトをインストールしていない方は、予め窓の杜などで7z形式に対応した解凍ソフトを適当に選んでインストールしておいてください。
展開先は十分な空き容量のあるストレージ(SSD等高速なストレージが望ましいです)にしましょう。圧縮ファイル自体も展開すると8GB程度になりますし、加えて後で重いモデルファイルをダウンロードすることになるので最終的には18GB程度の空き容量を必要とします。
また、圧縮ファイルの中には大量のファイルが含まれているので(お使いのPCの性能にもよりますが)展開には10分程度時間がかかる場合があります。気長に待ちましょう。
手順2:バッチファイルを実行
圧縮ファイルを展開できたら次は同梱されている「start_gradio_ui.bat」というバッチファイルを実行しましょう。これを実行すると黒い画面(コマンドプロンプト)が出て、初回実行時は必要なモデルのダウンロードなどが始まります。
モデルのファイルサイズはかなり大きいので、お使いのネット回線の速度にもよりますが結構時間がかかります。こちらも気長にお待ちください。
無事準備が完了すると「Running on local URL: ~」という表示が出ます。その部分をCtrlを押しながらクリックすればブラウザが開き、下記のようなWebUIの画面になります。

なおこの画面が出ても黒い画面は残りますが、これはそういうもの(というか黒い画面のほうが本体)なのでそのままにしておいてください。黒い画面のほうを閉じると処理を実行できなくなってしまいます。
おまけ:アップデートのやり方
おまけとして、ACE-Stepをアップデートするには同梱の「check_update.bat」を実行します。もしアップデートがあれば「今すぐアップデートしますか?」的なメッセージが出ますので、「y」と入力してEnterを押しましょう。
ACE-Step 1.5の使い方
導入が済んだところで次はACE-Step 1.5の基本的な使い方を解説します。執筆時点ではSimpleモードとCustomモードの2つの生成モードのうちどちらかで楽曲を生成するようになっているのですが、私が試したところSimpleモードはうまく動かなかったのでここではCustomモードの場合の操作をご説明しますね。


Music Caption
Music Captionは生成する楽曲の全体的なスタイルや雰囲気を指定するためのものです。どういう曲が欲しいかを指定しましょう。単語・カンマ区切りのタグ・自然な言葉による記述など複数の書き方がサポートされています。
この欄には、例えば上のほうに掲載したサンプル楽曲のプロンプトのような記述をすればOKです。
プロンプトの例(再掲):
Extremely fast and aggressive death metal, male growls, heavy distorted guitar riffs, blast beats
Captionの詳しい書き方は公式ガイドのCaptionの項目にあるので、そちらをご覧いただくと理解が深まると思います。
Lyrics
Lyricsは「歌詞」という意味ですが、ACE-StepにおいてはLyricsは単なる歌詞ではなく、音楽が時間とともにどのように展開するかを制御するためのものです。もちろん歌詞本文も含みますが、下記のようにタグ(用語を[]で囲ったもの)を使うなどして「ここはこういう歌い方にしてほしい」といったことを指定します。
- 歌詞テキスト自体
- 構造タグ([Verse]、[Chorus]、[Bridge]…)
- ボーカルスタイルのヒント([raspy vocal]、[whispered]…)
- 楽器セクション([guitar solo]、[drum break]…)
- エネルギー変化([building energy]、[explosive drop]…)
Lyricsは例えば下記のような書き方をします。
[Intro]
[Verse 1]
おやすみ 小さな天使
今日も一日 頑張ったね
目を閉じて 夢の世界へ
ママがそばに いるからね
[Verse 2]
星たちが 見守ってる
月の光が 包み込む
怖いものは 何もないよ
安心して 眠りなさい
Lyricsの詳しい書き方(タグ一覧やタグの使い方のコツ・注意点など)は公式ガイドのLyricsの項目をご覧ください。
Optional Parameters
BPM(=テンポの速さ)、キー、曲の長さなどを指定できます(※すべてオプションなので指定しなくても構いません)。
その他のUIの操作など
- ボーカルの言語を指定する場合は「Vocal Language (optional)」のドロップダウンから好きな言語を指定します。日本語なら「ja」を選択しましょう。
- ボーカルなしの楽器だけの曲がほしい場合は「Instrumental」にチェックを入れます。
- サンプルを見たい場合は右側のサイコロボタンを押します(※英語・中国語・日本語など、様々な言語のサンプルから選ばれたものがランダムで入力されます)。
生成した楽曲の試聴&ダウンロード方法
楽曲の生成は十数秒程度で完了し、「Results」欄に生成結果が表示されて試聴できるようになります。なおデフォルトでは同時に2つの曲が生成されます。

気に入った曲を保存したい場合は「Save」ボタンを押すとダウンロードできます。
おわりに
以上、高品質な音楽を生成できる「ACE-Step 1.5」の導入方法や使い方について書きました。一般的なPCでローカル生成できる画期的なAIだと思うので、ぜひ皆さんも試してみてください。
この記事が何かしらお役に立てば幸いです。

