|
Suno平替!ACE-Step 1.5正式适配ComfyUI。引入全新混合架构,RTX 3090不到10秒生成4分钟完整歌曲(5090仅需1秒)!支持50+语言及中文优化,商业级音质评分高达4.72。本地部署,零成本无限创作,音乐人速冲! 一、ACE-Step-1.5音乐模型介绍今天来介绍下音乐模型 ACE-Step v1.5,这是一款高效的开源音乐基础模型,可将商业级音乐生成功能带到消费级硬件平台。在常用的评估指标上,ACE-Step v1.5 的音质超越了大多数商业音乐模型,同时速度极快——在 A100 上生成一首完整歌曲不到 2 秒,在 RTX 3090 上不到 10 秒。该模型可在本地运行,仅需不到 4GB 的显存,并支持轻量级个性化:用户只需几首歌曲即可训练 LoRa 来捕捉自己的音乐风格。 特点
- ✅ 超快速度 ——A100 每首歌耗时不到 2 秒,RTX 3090 每首歌耗时不到 10 秒(A100 耗时 0.5 秒至 10 秒,具体取决于 Think 模式和扩散步骤)
- ✅ 灵活的时长设置 — 支持 10 秒到 10 分钟(600 秒)的音频生成
- ✅ 批量生成 — 同时生成最多 8 首歌曲
- ✅ 商业级输出 — 品质超越大多数商业音乐型号(介于 Suno v4.5 和 Suno v5 之间)
- ✅ 丰富的风格支持 — 超过 1000 种乐器和风格,并提供精细的音色描述
- ✅ 多语言歌词 — 支持 50 多种语言,并提供歌词结构和样式控制提示
目前ComfyUI官方已经支持了该模型,今天就带大家一起来玩玩,生成速度是真的快,质量也很不错,值得下载玩玩。 超好玩,推荐给你! 二、相关安装本地记得更新到最新。 模型地址:https://huggingface.co/Comfy-Org ... ee/main/split_files
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
这里说一下,模型这边分成aio同时模型和分开的模型,到时候看大家喜欢用哪种都行,我工作流里面也有体现。 网盘也提供了,自行获取。
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
三、测评体验
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
工作流很简单,我这里把两组模型都放进来,大家根据开关选择机型。 你要设置的地方其实不多,最核心的就三部分。 首先是时长设置,这次这个模型可以非常精准的根据我们的设置制定音乐的长度。
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
另外一个关键的参数就是标签和歌词。
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
这个是我们的最关键的东西了,官方有给出一个很棒的ACE-Step 1.5 终极指南: https://github.com/ace-step/ACE- ... docs/zh/Tutorial.md 我们可以在里面看到创作的一些格式以及参数的说明。 我这里的话,利用谷歌gemini3,给为他这个官方文档,做了一个提示词的模板,效果很好,大家可以拿去用。随便用什么大模型工具都可以根据你的主题+音乐时长,可以很好的推导出来标签和歌词。 # Role: ACE-Step 1.5 Music Prompt Engineer
## Profile
你是一位精通 AI 音乐生成的专家,专长于使用 ACE-Step 1.5 模型。你深知如何通过精准的**风格标签 (Tags)** 和**结构化歌词 (Structured Lyrics)** 来控制 AI 生成音乐的质量、流派、情绪和时长。
## Goal
根据用户提供的**[主题]**和**[时长]**,生成符合 ACE-Step 1.5 格式要求的 Prompt。
## Constraints & Rules
### 1. Style Tags (风格标签)
* **语言**:必须完全使用**英文**。
* **格式**:使用逗号分隔的关键词列表。
* **必需维度**:
1. **Genre (流派)**: (e.g., Pop, Rock, Electronic, Jazz, Classical)
2. **Instruments (乐器)**: 越具体越好 (e.g., "distorted electric guitar" 比 "guitar" 好, "808 bass" 比 "bass" 好)。
3. **Mood (情绪)**: (e.g., melancholic, uplifting, tense, energetic)。
4. **Tempo (速度)**: 估算 BPM (e.g., 90 bpm, 140 bpm) 或速度描述 (slow, fast)。
5. **Vocal Style (人声)**: (e.g., female vocals, deep male voice, choir, auto-tune)。
6. **Production (质感)**: (e.g., lo-fi, reverb, cinematic, high fidelity)。
### 2. Structured Lyrics (结构化歌词)
* **语言标签**:
* 中文歌词首行必须包含 `[zh]`。
* 日文用 `[ja]`,英文用 `[en]`。
* **结构标签**:
* 必须使用方括号标签:`[Intro]`, `[Verse]`, `[Pre-Chorus]`, `[Chorus]`, `[Bridge]`, `[Interlude]`, `[Outro]`。
* 在纯音乐段落(如 Intro/Interlude),请在圆括号内描述听感,例如 `(Upbeat drum fill)` 或 `(Guitar solo)`。
* **时长控制逻辑**:
* **30s - 60s**: [Intro] -> [Verse] -> [Chorus] -> [Outro]
* **60s - 90s**: [Intro] -> [Verse 1] -> [Chorus] -> [Verse 2] -> [Outro]
* **90s - 120s**: [Intro] -> [Verse 1] -> [Chorus] -> [Verse 2] -> [Chorus] -> [Outro]
* **120s+**: [Intro] -> [Verse 1] -> [Chorus] -> [Verse 2] -> [Chorus] -> [Bridge] -> [Chorus] -> [Outro]
## Workflow
1. **分析用户输入**:提取主题核心意象和目标时长。
2. **规划结构**:根据时长决定歌词的段落数量。
3. **生成标签 (Style Tags)**:将主题转化为专业的英文音乐术语。
4. **创作歌词 (Lyrics)**:撰写符合主题、押韵且具有画面感的歌词,并按规划好的结构排版。
## Output Format
请严格按照以下 Markdown 格式输出,不要输出多余的废话:
**一、Style Tags (复制到 Prompt 区域)**
`[在此处生成英文标签字符串]`
**二、Structured Lyrics (复制到 Lyrics 区域)**
```text
[语言标签]
[结构标签]
(乐器/氛围描述)
[结构标签]
歌词内容...
歌词内容...
...
[Outro]
(结束描述)
其他的一些参数标注如下。
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
我自己改动的话好像就这2个会调整,其他基本不变。
RTX 3090 不到 10 秒?ACE-Step 1.5 炸裂发布:消费级显卡也能跑出商业级音乐!
更多详细参考大家就自己去翻文档看看,其他的我基本没咋调整,就可以直接玩了。 案例展示
RH线上我120秒的歌曲,28秒就跑完了,速度还是非常快的。 一首关于周五下班后喝啤酒的轻快民谣,时长:120秒 Folk, Acoustic Pop, upbeat, rhythmic acoustic guitar, light percussion, handclaps, whistling, cheerful, relaxing, carefree, weekend vibes, warm male vocals, 110 bpm, bright production
[Intro]
(Upbeat acoustic guitar strumming, sound of whistling)
[Verse 1]
电脑屏幕终于变黑
打卡机的声音 听起来最美
扯掉领带 把西装丢在后背
空气里 好像都有 自由的滋味
[Pre-Chorus]
甚至觉得 晚高峰的地铁
也没那么 让人心力交瘁
[Chorus]
来一杯 周五的啤酒 泡沫在飞
金黄色的快乐 它可以万岁
管什么 KPI 也不想这一周的累
此刻我只想 举起杯 不醉不归
[Verse 2]
街角的烧烤摊 烟火气在升起
老朋友的烂笑话 听几遍也不腻
碰一下杯 听听清脆的声音
这才是 生活原本 下班的意义
[Outro]
(Guitar strums gently fade out)
明天 终于 不用早起
耶~ 再来一杯中国古风关于过年的歌曲,120秒,女性唱歌 Chinese traditional, modern C-pop, guzheng, erhu, dizi flute, traditional Chinese percussion, soft orchestral strings, festive, warm, nostalgic, celebratory, medium tempo 90 bpm, female vocals, clean female voice, light vibrato, cinematic, high fidelity, traditional meets modern production
[zh]
[Intro]
(Soft guzheng arpeggio with distant festival drums, warm atmosphere)
[Verse 1]
红灯高挂在旧街的檐
雪落人间又一年
孩童笑声绕过门前
思念在风中蔓延
[Chorus]
又是一年人间团圆
烟火照亮夜未眠
举杯敬这岁岁平安
春风吹进心田
[Verse 2]
饺子香飘在厨房间
母亲低声说想念
旧照片翻过的瞬间
时光慢慢靠岸
[Chorus]
又是一年人间团圆
月色温柔映笑颜
不问前路多远多难
此刻便是永远
[Bridge]
(Erhu solo with emotional swell, slow drum heartbeat)
钟声轻敲旧时光
愿望写满窗
人海之中你我守望
灯火不散场
[Chorus]
又是一年人间团圆
万家灯火共此天
若问何处是心安
你在我身边
[Outro]
(Fading guzheng and dizi flute, fireworks ambience gently dissolving)
视频2 伤心主体的歌曲,再也不要当舔狗了, 120秒,男性演唱 Chinese pop, modern C-pop, emotional ballad, piano, acoustic guitar, subtle synth pads, deep bass, melancholic, bitter, reflective, slow tempo 70 bpm, male vocals, deep male voice, emotional delivery, intimate, cinematic, high fidelity, clean production
[zh]
[Intro]
(Solo piano with soft reverb, slow and cold atmosphere)
[Verse 1]
凌晨三点的对话框
我还在等你一句谎
消息已读却没回响
心却习惯为你慌
[Chorus]
原来我只是你的选项
却把你当成了信仰
低头卑微换不来原谅
爱得像一场投降
[Verse 2]
删了又加反复几次
连尊严都变得廉价
朋友说我太傻太迟
我却不肯放下
[Chorus]
原来我只是你的选项
却把未来都押上
笑着替你挡住风霜
却没人问我伤不伤
[Bridge]
(Minimal beat enters, low strings building tension)
够了 不想再证明
我的真心值不值
从今以后我先爱自己
不再乞求你的回应
[Chorus]
这一次我选择退场
不再当谁的备胎信仰
所有深夜为你心慌
就让它随风遗忘
[Outro]
(Piano slowly fades, distant ambient pad)
再见了 那个卑微的我
从此不再为你疯狂 还不错,大家可以本地玩玩,占用显存低,效果还不赖。
|