30

主题

1

回帖

153

修为

绘灵

积分
316

Soul AI Lab 开源 SoulX-Podcast 播客语音模型,专为多轮多说话人场景设计,支持跨方言零样本克隆与笑声等副语言控制,60 分钟长对话稳定输出,兼容单人 TTS 任务。

一、SoulX-Podcast介绍

今天来分享下最新的声音模型SoulX-PodcastSoulX-Podcast 专为播客式多轮、多说话人对话语音生成而设计,同时在常规独白 TTS 任务中也能实现卓越的性能。

为了满足多轮口语对话对自然度的更高要求,SoulX-Podcast 集成了一系列副语言控制,支持普通话和英语,以及多种中国方言,包括四川话、河南话和粤语,从而实现更个性化的播客风格语音生成。

主要特点
  • 长篇、多轮、多说话人对话语音生成 :SoulX-Podcast 擅长为多轮、多说话人场景生成高质量、听起来自然的对话语音。

  • 跨方言、零样本语音克隆 :SoulX-Podcast 支持跨不同汉语方言的零样本语音克隆,能够生成任何支持的方言的高质量、个性化语音。

  • 副语言控制 :SoulX-Podcast 支持各种副语言事件,如笑声和叹息声,以增强合成结果的真实感。


播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...
二、相关安装

对应的ComfyUI插件已经有了, 是smile大佬开发的

要注意的是,这个插件对transformers的依赖也是非常高,会有概率和你本地之前安装的插件冲突,大家需要提前备份下python,如果冲突了,那就还原这个python环境。

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

模型有两大块,分别对应普通话版本和方言版本:

  • 普通话版:SoulX-Podcast-1.7B-dialect
  • 方言版:SoulX-Podcast-1.7B-dialect

模型抱脸下载页:

  • https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B/tree/main
  • https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect/tree/main

模型存放地址:ComfyUI/models/TTS/[模型名称]/

ComfyUI/
  └── models/
      └── TTS/
          └── SoulX-Podcast-1.7B/
              ├── soulxpodcast_config.json
              ├── flow.pt
              ├── hift.pt
              ├── campplus.onnx
              └── [LLM模型文件...]

文末网盘我也提供了下载地址,大家自行前往获取

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...
三、测评体验

工作流已发Runninghub,前往体验or下载:

今天,我们主要来测试三个方面

  • 双人普通话对话场景
  • 方言对话场景(粤语、四川、河南)
  • 副语言控制(叹息、咳嗽、笑等)
3.1 双人普通话对话场景

单人对话太简单,所以我们直接用双人来讲案例,单人的话只要改成一个音频传入即可。

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

双人对话的文本格式和一天用的IndexTTS2一样,用[S1][S2]来区分不同的人,格式如下:

[S1] 最近大家都学 AI,我们也学不?
[S2] AI 挺有用,你想学哪块?
[S1] 想提高效率,比如快速做 PPT。
[S2] 那先学基础的,用 AI 生成内容。
[S1] 好,今晚试试,你教我?
[S2] 行,现在搜免费教程,先体验下。

然后上传两个参考的音色音频即可。

下面这3个是核心节点,左侧是加载模型,如果想生成方言版本,就选择SoulX-Podcast-1.7B-dialect,普通话版本就选择SoulX-Podcast-1.7B-dialect。

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

另外,这里input mode选择文本的格式,有简单文本格式和json格式,我测试过都差不多,简单文本的话更简便一些,推荐就用这个就行。

其他的没啥好说的,默认直接使用即可。

普通对话案例:

[S1] 哈喽大家好,欢迎来到本期播客,我是阿哲!旁边这位还是咱们的老搭档小夏~
[S2] 大家好呀!最近总收到听众留言说工作压力大,今天咱们就来聊聊 “周末怎么解压”,阿哲你周末一般怎么放松?
[S1] 我超爱骑行!上周六沿着滨江路骑了两个小时,风吹在脸上,看着江面波光粼粼的,脑子里那些烦人的报表全忘了,你别说,比在家躺一天舒服多了。小夏你呢?肯定不是像我这样 “折腾” 的吧?
[S2] 还真不一样!我喜欢在家手冲咖啡,慢慢磨豆子、控制水温,看着咖啡液一滴一滴滤下来,特别治愈。上周还试了新的耶加雪菲豆子,酸感很清新,配着自己烤的曲奇,一下午就过去了。对了,你骑行的时候会不会遇到什么有意思的事?
[S1] 最近大家都学 AI,我们也学不?
[S2] AI 挺有用,你想学哪块?
[S1] 想提高效率,比如快速做 PPT。
[S2] 那先学基础的,用 AI 生成内容。
[S1] 好,今晚试试,你教我?
[S2] 行,现在搜免费教程,先体验下。

听上去感觉还不错吧!

3.2 方言对话场景(粤语、四川、河南)

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

SoulX-Podcast是支持方言的,需要做两个方面的调整就行:

  • 需要模型切换到SoulX-Podcast-1.7B-dialect
  • 需要把普通还自动转成对应方言的文本,这个用大模型就行。

来看一个基础案例文本就懂了

[S1] 哈囉大家好,歡迎嚟到本期播客,我係阿哲!旁邊呢位仲係我哋嘅老拍檔小夏~  
[S2] 大家好呀!最近成日收到聽眾留言話工作壓力好大,今日我哋就嚟傾吓 "週末點樣解壓",阿哲你週末一般點樣放鬆嘅呀?  
[S1] 我超鍾意踩單車!上個禮拜六沿住濱江路踩咗兩個鐘,風吹喺面上,望住江面波光粼粼嘅,腦入面嗰啲煩人嘅報表全部都唔記得晒,你唔好話,真係比喺屋企瞓晒一日舒服好多。小夏你呢?肯定唔係似我咁 "折騰" 嘅啩?  
[S2] 真係唔一樣呀!我鍾意喺屋企手沖咖啡,慢慢磨豆、控制水溫,睇住咖啡液一滴一滴咁濾落嚟,真係特別治癒。上個禮拜仲試咗新嘅耶加雪菲豆,酸感好清新,配住自己焗嘅曲奇,一個下午就咁過咗。係喇,你踩單車嗰陣會唔會遇到啲咩有趣嘅事?

上面这个其实是我通过大模型自动转的,我给大家写了个提示词框架,只要你传入普通话文本,以及想要的方言就行,工作流里面体现了。

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

效果还是不错的,下面是分别三种语言,目前官方就提供这三种貌似。

粤语:

四川:

[S1]各位《巴适得板》的听众些,大家好噻!我是你们主持人晶晶。今儿天气硬是巴适,不晓得大家是在赶路嘛,还是茶都泡起咯,准备跟我们好生摆一哈龙门阵喃?
[S2]晶晶好哦,大家安逸噻!我是李老倌。你刚开口就川味十足,"摆龙门阵"几个字一甩出来,我鼻子头都闻到茶香跟火锅香咯!
[S1]就是得嘛!李老倌,我前些天带个外地朋友切人民公园鹤鸣茶社坐了一哈。他硬是搞不醒豁,为啥子我们一堆人围到杯茶就可以吹一下午壳子,从隔壁子王嬢嬢娃儿耍朋友,扯到美国大选,中间还掺几盘斗地主。他说我们四川人简直是把"摸鱼"刻进骨子里头咯!
[S2]哈哈,你那个朋友说得倒是有点儿趣,但他莫看到精髓噻。"摆龙门阵"哪是摸鱼嘛,这是我们川渝人特有的交际方式,更是一种活法。外省人天天说的"松弛感",根根儿就在这龙门阵里头。今天我们就要好生摆一哈,为啥子四川人活得这么舒坦。就先从茶馆这个老窝子说起,看它咋个成了我们四川人的魂儿!

河南:

对了,给你们对比下用了方言模型和不用方言模型的对比

河南话文本:

[S1]哎,大家好啊,欢迎收听咱这一期嘞《瞎聊呗,就这么说》,我是恁嘞老朋友,燕子。
[S2]大家好,我是老张。燕子啊,今儿瞅瞅你这个劲儿,咋着,是有啥可得劲嘞事儿想跟咱唠唠?
[S1]哎哟,老张,你咋恁懂我嘞!我跟你说啊,最近我刷手机,老是刷住些可逗嘞方言视频,特别是咱河南话,咦~我哩个乖乖,一听我都憋不住笑,咋说嘞,得劲儿哩很,跟回到家一样。
[S2]哈哈哈哈,你这回可算说到根儿上了!河南话,咱往大处说说,中原官话,它真嘞是有一股劲儿搁里头。它可不光是说话,它脊梁骨后头藏嘞,是咱一整套、鲜鲜活活嘞过法儿,一种活人嘞道理。
[S1]活人嘞道理?哎,这你这一说,我嘞兴致“腾”一下就上来啦!觉住咱这嗑儿,一下儿从搞笑视频蹿到文化顶上了啊。那你赶紧给我白话白话,这里头到底有啥道道儿?我特别想知道——为啥一提起咱河南人,好些人脑子里“蹦”出来嘞头一个词儿,就是实在?这个实在,骨子里到底是啥嘞?

不用方言:


用方言:

还是可以区分出来的吧,用了方言版的模型,效果会更好一些。

3.3 副语言控制(叹息、咳嗽、笑等)

最后一个场景是副语言控制,展示模型控制语音中非语言信息(如笑声、叹气声、清嗓子等)的能力。

写法:

  • 笑:<|laughter|>
  • 叹气:<|sigh|>
  • 咳嗽:<|coughing|>
  • 呼吸:<|breathing|>

下面是一个案例

[S1]哈喽,AI时代的冲浪先锋们!欢迎收听《AI生活进行时》。啊,一个充满了未来感,然后,还有一点点,<|laughter|>神经质的播客节目,我是主持人小希。
[S2]哎,大家好呀!我是能唠,爱唠,天天都想唠的唠嗑!
[S1]最近活得特别赛博朋克哈!以前觉得AI是科幻片里的,<|sigh|> 现在,现在连我妈都用AI写广场舞文案了。
[S2]<|laughter|>这个例子很生动啊。是的,特别是生成式AI哈,感觉都要炸了! 诶,那我们今天就聊聊AI<|breathing|>AI是怎么走进我们的生活的哈!
[S1]没错。
[S2]<|coughing|>,比如ChatGPT的写作能力啊,我有个程序员朋友,现在用ChatGPT三分钟<|breathing|>三分钟就能写出感情充沛的周报,<|laughter|>把老板都看傻了都。


厉害了,你听音频,可以听到里面的笑声,叹气等。

这个算是新东西,比以前的IndexTTS2好得多。

注意事项

这个算是最新的语言模型了,整体效果不错,方言以及副语言的功能很棒。

本地安装的话依赖transformers有点高了,大家做取舍吧,记得提前备份下python文件,万一有问题,可以覆盖还原。

四、在线使用
云端镜像

大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。

目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。

镜像名称:嘟嘟AI绘画趣味学

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

播客制作效率翻倍:SoulX-Podcast 支持多说话人自动切换,方言 / 副语言全可控 ...

云平台镜像地址:

https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY

https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY

新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长


模型工作流获取
嘟嘟公众号对话框发送 251101即可!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

© 2001-2025 BBS.Monster