RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

嘟先生 · 3 天前

Suno平替！ACE-Step 1.5正式适配ComfyUI。引入全新混合架构，RTX 3090不到10秒生成4分钟完整歌曲（5090仅需1秒）！支持50+语言及中文优化，商业级音质评分高达4.72。本地部署，零成本无限创作，音乐人速冲！

一、ACE-Step-1.5音乐模型介绍
今天来介绍下音乐模型 ACE-Step v1.5，这是一款高效的开源音乐基础模型，可将商业级音乐生成功能带到消费级硬件平台。在常用的评估指标上，ACE-Step v1.5 的音质超越了大多数商业音乐模型，同时速度极快——在 A100 上生成一首完整歌曲不到 2 秒，在 RTX 3090 上不到 10 秒。该模型可在本地运行，仅需不到 4GB 的显存，并支持轻量级个性化：用户只需几首歌曲即可训练 LoRa 来捕捉自己的音乐风格。

特点
✅ 超快速度 ——A100 每首歌耗时不到 2 秒，RTX 3090 每首歌耗时不到 10 秒（A100 耗时 0.5 秒至 10 秒，具体取决于 Think 模式和扩散步骤）
✅ 灵活的时长设置 — 支持 10 秒到 10 分钟（600 秒）的音频生成
✅ 批量生成 — 同时生成最多 8 首歌曲
✅ 商业级输出 — 品质超越大多数商业音乐型号（介于 Suno v4.5 和 Suno v5 之间）
✅ 丰富的风格支持 — 超过 1000 种乐器和风格，并提供精细的音色描述
✅ 多语言歌词 — 支持 50 多种语言，并提供歌词结构和样式控制提示

目前ComfyUI官方已经支持了该模型，今天就带大家一起来玩玩，生成速度是真的快，质量也很不错，值得下载玩玩。
项目链接：https://github.com/ace-step/ACE-Step-1.5

超好玩，推荐给你！
工作流：Acestep1.5最新文生音乐
体验地址：https://www.runninghub.cn/post/2 ... iteCode=kol01-rh024

二、相关安装
本地记得更新到最新。
模型地址：https://huggingface.co/Comfy-Org ... ee/main/split_files

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

这里说一下，模型这边分成aio同时模型和分开的模型，到时候看大家喜欢用哪种都行，我工作流里面也有体现。
网盘也提供了，自行获取。

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

三、测评体验

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

工作流很简单，我这里把两组模型都放进来，大家根据开关选择机型。
你要设置的地方其实不多，最核心的就三部分。
首先是时长设置，这次这个模型可以非常精准的根据我们的设置制定音乐的长度。

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

另外一个关键的参数就是标签和歌词。

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

这个是我们的最关键的东西了，官方有给出一个很棒的ACE-Step 1.5 终极指南: https://github.com/ace-step/ACE- ... docs/zh/Tutorial.md
我们可以在里面看到创作的一些格式以及参数的说明。
我这里的话，利用谷歌gemini3，给为他这个官方文档，做了一个提示词的模板，效果很好，大家可以拿去用。随便用什么大模型工具都可以根据你的主题+音乐时长，可以很好的推导出来标签和歌词。
# Role: ACE-Step 1.5 Music Prompt Engineer

## Profile
你是一位精通 AI 音乐生成的专家，专长于使用 ACE-Step 1.5 模型。你深知如何通过精准的**风格标签 (Tags)** 和**结构化歌词 (Structured Lyrics)** 来控制 AI 生成音乐的质量、流派、情绪和时长。

## Goal
根据用户提供的**[主题]**和**[时长]**，生成符合 ACE-Step 1.5 格式要求的 Prompt。

## Constraints & Rules

### 1. Style Tags (风格标签)
* **语言**：必须完全使用**英文**。
* **格式**：使用逗号分隔的关键词列表。
* **必需维度**：
1.  **Genre (流派)**: (e.g., Pop, Rock, Electronic, Jazz, Classical)
2.  **Instruments (乐器)**: 越具体越好 (e.g., "distorted electric guitar" 比 "guitar" 好, "808 bass" 比 "bass" 好)。
3.  **Mood (情绪)**: (e.g., melancholic, uplifting, tense, energetic)。
4.  **Tempo (速度)**: 估算 BPM (e.g., 90 bpm, 140 bpm) 或速度描述 (slow, fast)。
5.  **Vocal Style (人声)**: (e.g., female vocals, deep male voice, choir, auto-tune)。
6.  **Production (质感)**: (e.g., lo-fi, reverb, cinematic, high fidelity)。

### 2. Structured Lyrics (结构化歌词)
* **语言标签**：
* 中文歌词首行必须包含 `[zh]`。
* 日文用 `[ja]`，英文用 `[en]`。
* **结构标签**：
* 必须使用方括号标签：`[Intro]`, `[Verse]`, `[Pre-Chorus]`, `[Chorus]`, `[Bridge]`, `[Interlude]`, `[Outro]`。
* 在纯音乐段落（如 Intro/Interlude），请在圆括号内描述听感，例如 `(Upbeat drum fill)` 或 `(Guitar solo)`。
* **时长控制逻辑**：
* **30s - 60s**: [Intro] -> [Verse] -> [Chorus] -> [Outro]
* **60s - 90s**: [Intro] -> [Verse 1] -> [Chorus] -> [Verse 2] -> [Outro]
* **90s - 120s**: [Intro] -> [Verse 1] -> [Chorus] -> [Verse 2] -> [Chorus] -> [Outro]
* **120s+**: [Intro] -> [Verse 1] -> [Chorus] -> [Verse 2] -> [Chorus] -> [Bridge] -> [Chorus] -> [Outro]

## Workflow
1.  **分析用户输入**：提取主题核心意象和目标时长。
2.  **规划结构**：根据时长决定歌词的段落数量。
3.  **生成标签 (Style Tags)**：将主题转化为专业的英文音乐术语。
4.  **创作歌词 (Lyrics)**：撰写符合主题、押韵且具有画面感的歌词，并按规划好的结构排版。

## Output Format
请严格按照以下 Markdown 格式输出，不要输出多余的废话：

**一、Style Tags (复制到 Prompt 区域)**
`[在此处生成英文标签字符串]`

**二、Structured Lyrics (复制到 Lyrics 区域)**
```text
[语言标签]
[结构标签]
(乐器/氛围描述)

[结构标签]
歌词内容...
歌词内容...
...
[Outro]
(结束描述)

其他的一些参数标注如下。

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

我自己改动的话好像就这2个会调整，其他基本不变。

RTX 3090 不到 10 秒？ACE-Step 1.5 炸裂发布：消费级显卡也能跑出商业级音乐！

更多详细参考大家就自己去翻文档看看，其他的我基本没咋调整，就可以直接玩了。

案例展示
RH线上我120秒的歌曲，28秒就跑完了，速度还是非常快的。
一首关于周五下班后喝啤酒的轻快民谣，时长：120秒
Folk, Acoustic Pop, upbeat, rhythmic acoustic guitar, light percussion, handclaps, whistling, cheerful, relaxing, carefree, weekend vibes, warm male vocals, 110 bpm, bright production

[Intro]
(Upbeat acoustic guitar strumming, sound of whistling)

[Verse 1]
电脑屏幕终于变黑
打卡机的声音听起来最美
扯掉领带把西装丢在后背
空气里好像都有自由的滋味

[Pre-Chorus]
甚至觉得晚高峰的地铁
也没那么让人心力交瘁

[Chorus]
来一杯周五的啤酒泡沫在飞
金黄色的快乐它可以万岁
管什么 KPI 也不想这一周的累
此刻我只想举起杯不醉不归

[Verse 2]
街角的烧烤摊烟火气在升起
老朋友的烂笑话听几遍也不腻
碰一下杯听听清脆的声音
这才是生活原本下班的意义

[Outro]
(Guitar strums gently fade out)
明天终于不用早起
耶~ 再来一杯
中国古风关于过年的歌曲，120秒，女性唱歌
Chinese traditional, modern C-pop, guzheng, erhu, dizi flute, traditional Chinese percussion, soft orchestral strings, festive, warm, nostalgic, celebratory, medium tempo 90 bpm, female vocals, clean female voice, light vibrato, cinematic, high fidelity, traditional meets modern production

[zh]

[Intro]
(Soft guzheng arpeggio with distant festival drums, warm atmosphere)

[Verse 1]
红灯高挂在旧街的檐
雪落人间又一年
孩童笑声绕过门前
思念在风中蔓延

[Chorus]
又是一年人间团圆
烟火照亮夜未眠
举杯敬这岁岁平安
春风吹进心田

[Verse 2]
饺子香飘在厨房间
母亲低声说想念
旧照片翻过的瞬间
时光慢慢靠岸

[Chorus]
又是一年人间团圆
月色温柔映笑颜
不问前路多远多难
此刻便是永远

[Bridge]
(Erhu solo with emotional swell, slow drum heartbeat)
钟声轻敲旧时光
愿望写满窗
人海之中你我守望
灯火不散场

[Chorus]
又是一年人间团圆
万家灯火共此天
若问何处是心安
你在我身边

[Outro]
(Fading guzheng and dizi flute, fireworks ambience gently dissolving)

视频2
伤心主体的歌曲，再也不要当舔狗了， 120秒，男性演唱
Chinese pop, modern C-pop, emotional ballad, piano, acoustic guitar, subtle synth pads, deep bass, melancholic, bitter, reflective, slow tempo 70 bpm, male vocals, deep male voice, emotional delivery, intimate, cinematic, high fidelity, clean production
[zh]

[Intro]
(Solo piano with soft reverb, slow and cold atmosphere)

[Verse 1]
凌晨三点的对话框
我还在等你一句谎
消息已读却没回响
心却习惯为你慌

[Chorus]
原来我只是你的选项
却把你当成了信仰
低头卑微换不来原谅
爱得像一场投降

[Verse 2]
删了又加反复几次
连尊严都变得廉价
朋友说我太傻太迟
我却不肯放下

[Chorus]
原来我只是你的选项
却把未来都押上
笑着替你挡住风霜
却没人问我伤不伤

[Bridge]
(Minimal beat enters, low strings building tension)
够了不想再证明
我的真心值不值
从今以后我先爱自己
不再乞求你的回应

[Chorus]
这一次我选择退场
不再当谁的备胎信仰
所有深夜为你心慌
就让它随风遗忘

[Outro]
(Piano slowly fades, distant ambient pad)
再见了那个卑微的我
从此不再为你疯狂
还不错，大家可以本地玩玩，占用显存低，效果还不赖。