今回は音楽生成AIに関する話題で
高品質な楽曲をローカル生成できる「ACE-Step 1.5」の導入方法と使い方
をわかりやすく解説するという内容になっております。
音楽生成AIというと今までは「Suno」などのオンラインサービスが主流で、音楽をローカル生成できるAIの話はあまり聞いたことがありませんでした。しかし先日ついに音楽をローカル環境で生成できる「ACE-Step」というモデルが登場したことが海外掲示板のReddit等で話題になりました。私もさっそく使ってみたので、ここではこのACE-Stepの導入方法や使い方について詳しく書いていきますね。
ACE-Step 1.5について
公式リポジトリ
ACE-Stepとは?
ACE-Stepは、商用レベルの音楽を一般的なハードウェアで生成できるオープンソースの音楽生成モデルです。高品質な楽曲を誰でも無料で生成できるのが特徴で日本語ボーカルの曲も生成できます。主な特徴をまとめると次のとおりです。
動作に必要なPCスペック
公式ページによると「VRAM容量が4GB程度のグラフィックボードでも動作する」ということなので最近のグラボを積んだPCなら問題なく動作すると思います。
ただし要件としてCUDA 12.8に対応しているグラボが必要ということであまりにも古いグラボでは正常に動作しない可能性があります。
ACE-Stepで実際に生成したサンプル音源
私がACE-Stepで実際に生成した楽曲をサンプルとして掲載しておきます。ちなみに私は普段メタルしか聴かないので個人的に良し悪しがよく分かるメタル系の曲の生成を試してみました。
サンプル1:英語男性ボーカルのメタル風の曲
キャプション:
Extremely fast and aggressive death metal, male growls, heavy distorted guitar riffs, blast beats
歌詞:
[Verse 1]
The sky is bleeding, turning charcoal grey The whispers of the weak have faded away Bound in chains of silence, forged in cold despair I breathe the ashes of the world, it’s all I have to bear
[Pre-Chorus]
No gods to save us, no kings to lead Only the hunger, only the greed But deep in the marrow, a fire begins to grow The crushing weight of gravity is all we’ll ever know
[Chorus]
Rise from the ruins, scream at the sun The age of the hollow has finally begun With fists of iron and a heart made of steel We break the illusions, we make them all feel! Metal is rising! The silence is dead!
[Verse 2]
The gears are grinding, the thunder starts to roar We aren't the victims of their petty holy war Sharpened blades of lightning, striking through the night We are the shadows dancing in the dying light
[Bridge]
Burn it down... Tear it down... Let the thunder shake the ground! GO!
[Chorus]
Rise from the ruins, scream at the sun The age of the hollow has finally begun With fists of iron and a heart made of steel We break the illusions, we make them all feel!
[Outro]
The iron stays... The blood decays... WE SURVIVE!
デスメタルを指定したものの爽やかすぎる曲になってしまいました。でも普通に聴けます。スクリーム(=0:22あたりから)もきちんと生成できていてびっくりです。
なお楽曲の生成速度はかなり速く、私のPCでは同じプロンプトに対して2曲同時に生成して10秒程度しかかかりませんでした。これだけ生成速度が速ければいろいろ試せそうですね。
サンプル2:日本語女性ボーカルのメタル風の曲
キャプション:
Traditional 80s heavy metal, high-pitched female shouts
歌詞:
[Verse 1]
凍てつく街の片隅で 燻り続けた野心 牙を剥く風に吹かれ 独り明日を睨む 正義の仮面を被り 指を差す奴らの声 耳を塞ぐ必要はない 魂が叫んでいるから
[Pre-Chorus]
予定調和の未来など この手で叩き斬れ 紅く染まる三日月が 終わりの合図を告げる
[Chorus]
命を燃やせ 鋼の意志で 絶望の雨に打たれようとも 孤独の海を血に染めて進め 失うものなど 最初からないのさ この胸の鼓動は 誰にも止められない!
[Verse 2]
錆び付いた鎖を断ち 覚醒する獣の血 偽りの安らぎより 気高い死を選べ 夢に見た楽園は 砂のように崩れ去り 残されたのは 握りしめた拳だけ
[Bridge]
闇を裂け! 天を衝け! 朽ち果てるまで、抗い続けろ!
[Chorus]
命を燃やせ 鋼の意志で 絶望の雨に打たれようとも 孤独の海を 血に染めて進め 失うものなど 最初からないのさ
[Outro]
立ち止まるな 振り向くな 光の射す、その先へ…… Break the wall!
どうやらACE-Stepはメタルがあまり得意ではないようでこちらも思っていたのとは違う曲になってしまいましたが、イントロが結構いい感じに生成できました。
曲展開はなかなか面白くてこういうのもアリかなと思います。日本語歌詞だと途中の単語が抜けてしまったり、漢字の読みなどがおかしくなったりする部分が多いですがそれっぽい感じには生成できていますね。
ACE-Step 1.5の導入方法(一番簡単なやり方)
ではここからが本題で、まずはACE-Step 1.5の導入方法を解説します。お使いのPCへのインストール方法は「Windows限定の超簡単な方法」と「汎用性が高いが少し複雑な方法」の2つがあるのですが、ここでは前者の簡単なやり方をご紹介しますね。主な手順は次のとおり。
- 圧縮ファイル(7z形式)をダウンロードして展開する
- 同梱のバッチファイルを実行する
手順1:圧縮ファイル(7z形式)のダウンロード&展開
まずは公式が提供しているポータブルパッケージ(7z形式の圧縮ファイル)をダウンロードして展開します。公式リポジトリのInstallationページにダウンロードリンク(下記の赤枠部分)があるのでそこから圧縮ファイルをダウンロードしましょう。

次にこの圧縮ファイルを展開します。展開先は十分な空き容量のあるストレージ(SSD等高速なストレージが望ましいです)にしましょう。圧縮ファイル自体も展開すると8GB程度になりますし、加えて後で重いモデルファイルをダウンロードすることになるので最終的には18GB程度の空き容量を必要とします。
また、圧縮ファイルの中には大量のファイルが含まれているので(お使いのPCの性能にもよりますが)展開には10分程度時間がかかる場合があります。気長に待ちましょう。
手順2:バッチファイルを実行
圧縮ファイルを展開できたら次は同梱されている「start_gradio_ui.bat」というバッチファイルを実行しましょう。これを実行すると黒い画面(コマンドプロンプト)が出て、初回実行時は必要なモデルのダウンロードなどが始まります。
モデルのファイルサイズはかなり大きいので、お使いのネット回線の速度にもよりますが結構時間がかかります。こちらも気長にお待ちください。
無事準備が完了すると「Running on local URL: ~」という表示が出ます。その部分をCtrlを押しながらクリックすればブラウザが開き、下記のようなWebUIの画面になります。

なおこの画面が出ても黒い画面は残りますが、これはそういうもの(というか黒い画面のほうが本体)なのでそのままにしておいてください。黒い画面のほうを閉じると処理を実行できなくなってしまいます。
おまけ:アップデートのやり方
おまけとして、ACE-Stepをアップデートするには同梱の「check_update.bat」を実行します。もしアップデートがあれば「今すぐアップデートしますか?」的なメッセージが出ますので、「y」と入力してEnterを押しましょう。
ACE-Step 1.5の使い方
導入が済んだところで次はACE-Step 1.5の基本的な使い方を解説します。この記事の更新時点ではACE-Stepの音楽生成モードには次の4つがあり、それぞれ用途が異なります。

- Simpleモード:
どんな曲が欲しいかを記入するだけで楽曲を生成できるモード。詳細な設定はできないがとても簡単に使える。 - Customモード:
曲の説明・歌詞・その他テンポや長さなどを詳細に指定して生成できるモード。思い通りの曲を生成したいならこのモードがおすすめ。 - Remixモード:
任意の音源を元に新しい曲を生成できる生成モード。 - Repaintモード:
任意の音源の指定した部分だけを書き換える生成モード。
ここでは一番使うことになるCustomモードの場合の操作をご説明しますね。

Music Caption
Music Captionは生成する楽曲の全体的なスタイルや雰囲気を指定するためのものです。どういう曲が欲しいかを指定しましょう。単語・カンマ区切りのタグ・自然な言葉による記述など複数の書き方がサポートされています。
この欄には、例えば下記のように「こういう曲が欲しい」という簡単なキャプションを書けばOKです。
元となるプロンプトの例:
Extremely fast and aggressive death metal, male growls, heavy distorted guitar riffs, blast beats
ただしこれだけでは説明が単純すぎて思い通りの曲を出すのは難しいと思います。しかしだからといって詳細なキャプションを書くのも大変ですし、そもそも音楽に詳しくないと具体的なキャプションを書くのも難しいでしょう。
そこで活用したいのがMusic Caption欄の下にある「Enhance Caption」ボタンです。ある程度のキャプションを書いた状態でこのボタンを押すと、AIがそれを元にしてより具体的でいい感じのキャプションにしてくれます。

例えば先ほどのキャプションなら下記のようなかなり詳しいキャプションが生成されます(※ただし勝手に変更されてしまう部分もあるので、そのへんはよく理解して使ったほうがいいでしょう)。
An aggressive thrash metal track driven by heavily distorted, palm-muted guitar riffs and relentless double-bass drumming. The song opens with a powerful, harmonized guitar motif before dropping into a chugging verse. The lead vocals are harsh, shouted, and forceful, delivering lyrics with a gritty intensity. The chorus explodes with gang-style shouts and a soaring, anthemic melody. A dramatic bridge features a menacing, whispered monologue over a clean, atmospheric guitar line, building tension before a final, crushing chorus and a powerful scream. The track concludes with a clean, arpeggiated guitar outro accompanied by whispered vocals and a final, impactful sound effect.
なお「自分でもある程度ちゃんとしたプロンプトを書けるようになりたい」という方は、Captionの詳しい書き方が公式ガイドのCaptionの項目にあるのでそちらをご覧いただくと理解が深まると思います。
Lyrics
Lyricsは「歌詞」という意味ですが、ACE-StepにおいてはLyricsは単なる歌詞ではなく、音楽が時間とともにどのように展開するかを制御するためのものです。もちろん歌詞本文も含みますが、下記のようにタグ(用語を[]で囲ったもの)を使うなどして「ここはこういう歌い方にしてほしい」といったことを指定します。
- 歌詞テキスト自体
- 構造タグ([Verse]、[Chorus]、[Bridge]…)
- ボーカルスタイルのヒント([raspy vocal]、[whispered]…)
- 楽器セクション([guitar solo]、[drum break]…)
- エネルギー変化([building energy]、[explosive drop]…)
Lyricsは例えば下記のような書き方をします。
[Intro]
[Verse 1]
おやすみ 小さな天使
今日も一日 頑張ったね
目を閉じて 夢の世界へ
ママがそばに いるからね
[Verse 2]
星たちが 見守ってる
月の光が 包み込む
怖いものは 何もないよ
安心して 眠りなさい
…
Lyricsの詳しい書き方(タグ一覧やタグの使い方のコツ・注意点など)は公式ガイドのLyricsの項目をご覧ください。
こちらに関してもある程度の歌詞を書けていれば、Lyrics欄の下にある「Enhance Lyrics」ボタンでAIがいい感じの歌詞に整えてくれます。うまく活用しましょう。
Optional Parameters
BPM(=テンポの速さ)、キー、曲の長さなどを指定できます。すべてオプションで指定しなくても構いませんが、曲の長さがランダムだと使いづらいと思うのでそこだけは設定しておくといいかもしれません。
その他のUIの操作など
- ボーカルの言語を指定する場合は「Vocal Language (optional)」のドロップダウンから好きな言語を指定します。日本語なら「ja」を選択しましょう。
- ボーカルなしの楽器だけの曲がほしい場合は「Instrumental」にチェックを入れます。ただし今のところボーカルなしの曲の品質はあまりよくないようです。
- サンプルを見たい場合は右側のサイコロボタンを押します(※英語・中国語・日本語など、様々な言語のサンプルから選ばれたものがランダムで入力されます)。
生成した楽曲の試聴&ダウンロード方法
設定が済んだらどデカい「Generate Music」ボタンを押して楽曲を生成しましょう。楽曲の生成は十数秒程度で完了し、「Results」欄に生成結果が表示されて試聴できるようになります。なおデフォルトでは同時に2つの曲が生成されます。

気に入った曲を保存したい場合は「Save」ボタンを押すとダウンロードできます。
おわりに
以上、高品質な音楽を生成できる「ACE-Step 1.5」の導入方法や使い方について書きました。一般的なPCでローカル生成できる画期的なAIだと思うので、ぜひ皆さんも試してみてください。
この記事が何かしらお役に立てば幸いです。


