播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控

嘟先生 · 2025-11-1 00:00:00

Soul AI Lab 开源 SoulX-Podcast 播客语音模型，专为多轮多说话人场景设计，支持跨方言零样本克隆与笑声等副语言控制，60 分钟长对话稳定输出，兼容单人 TTS 任务。

一、SoulX-Podcast介绍
今天来分享下最新的声音模型SoulX-Podcast，SoulX-Podcast 专为播客式多轮、多说话人对话语音生成而设计，同时在常规独白 TTS 任务中也能实现卓越的性能。
为了满足多轮口语对话对自然度的更高要求，SoulX-Podcast 集成了一系列副语言控制，支持普通话和英语，以及多种中国方言，包括四川话、河南话和粤语，从而实现更个性化的播客风格语音生成。

主要特点
长篇、多轮、多说话人对话语音生成 ：SoulX-Podcast 擅长为多轮、多说话人场景生成高质量、听起来自然的对话语音。
跨方言、零样本语音克隆 ：SoulX-Podcast 支持跨不同汉语方言的零样本语音克隆，能够生成任何支持的方言的高质量、个性化语音。
副语言控制 ：SoulX-Podcast 支持各种副语言事件，如笑声和叹息声，以增强合成结果的真实感。

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

项目地址：https://soul-ailab.github.io/soulx-podcast/

二、相关安装
对应的ComfyUI插件已经有了，是smile大佬开发的
地址如下：https://github.com/flybirdxx/ComfyUI-SoulX-Podcast

要注意的是，这个插件对transformers的依赖也是非常高，会有概率和你本地之前安装的插件冲突，大家需要提前备份下python，如果冲突了，那就还原这个python环境。

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

模型有两大块，分别对应普通话版本和方言版本：
普通话版：SoulX-Podcast-1.7B-dialect
方言版：SoulX-Podcast-1.7B-dialect

模型抱脸下载页：
https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B/tree/main
https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect/tree/main

模型存放地址：ComfyUI/models/TTS/[模型名称]/
ComfyUI/
  └── models/
   └── TTS/
      └── SoulX-Podcast-1.7B/
            ├── soulxpodcast_config.json
            ├── flow.pt
            ├── hift.pt
            ├── campplus.onnx
            └── [LLM模型文件...]

文末网盘我也提供了下载地址，大家自行前往获取

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...
三、测评体验
工作流已发Runninghub，前往体验or下载：
SoulX-Podcast支持方言和副语言的声音模型：https://www.runninghub.cn/post/1 ... iteCode=kol01-rh024

今天，我们主要来测试三个方面
双人普通话对话场景
方言对话场景（粤语、四川、河南）
副语言控制（叹息、咳嗽、笑等）

3.1 双人普通话对话场景
单人对话太简单，所以我们直接用双人来讲案例，单人的话只要改成一个音频传入即可。

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

双人对话的文本格式和一天用的IndexTTS2一样，用[S1][S2]来区分不同的人，格式如下：
[S1] 最近大家都学 AI，我们也学不？
[S2] AI 挺有用，你想学哪块？
[S1] 想提高效率，比如快速做 PPT。
[S2] 那先学基础的，用 AI 生成内容。
[S1] 好，今晚试试，你教我？
[S2] 行，现在搜免费教程，先体验下。

然后上传两个参考的音色音频即可。
下面这3个是核心节点，左侧是加载模型，如果想生成方言版本，就选择SoulX-Podcast-1.7B-dialect，普通话版本就选择SoulX-Podcast-1.7B-dialect。

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

另外，这里input mode选择文本的格式，有简单文本格式和json格式，我测试过都差不多，简单文本的话更简便一些，推荐就用这个就行。
其他的没啥好说的，默认直接使用即可。
普通对话案例：
[S1] 哈喽大家好，欢迎来到本期播客，我是阿哲！旁边这位还是咱们的老搭档小夏～
[S2] 大家好呀！最近总收到听众留言说工作压力大，今天咱们就来聊聊 “周末怎么解压”，阿哲你周末一般怎么放松？
[S1] 我超爱骑行！上周六沿着滨江路骑了两个小时，风吹在脸上，看着江面波光粼粼的，脑子里那些烦人的报表全忘了，你别说，比在家躺一天舒服多了。小夏你呢？肯定不是像我这样 “折腾” 的吧？
[S2] 还真不一样！我喜欢在家手冲咖啡，慢慢磨豆子、控制水温，看着咖啡液一滴一滴滤下来，特别治愈。上周还试了新的耶加雪菲豆子，酸感很清新，配着自己烤的曲奇，一下午就过去了。对了，你骑行的时候会不会遇到什么有意思的事？
[S1] 最近大家都学 AI，我们也学不？
[S2] AI 挺有用，你想学哪块？
[S1] 想提高效率，比如快速做 PPT。
[S2] 那先学基础的，用 AI 生成内容。
[S1] 好，今晚试试，你教我？
[S2] 行，现在搜免费教程，先体验下。

听上去感觉还不错吧！

3.2 方言对话场景（粤语、四川、河南）

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

SoulX-Podcast是支持方言的，需要做两个方面的调整就行：
需要模型切换到SoulX-Podcast-1.7B-dialect

需要把普通还自动转成对应方言的文本，这个用大模型就行。

来看一个基础案例文本就懂了
[S1] 哈囉大家好，歡迎嚟到本期播客，我係阿哲！旁邊呢位仲係我哋嘅老拍檔小夏～
[S2] 大家好呀！最近成日收到聽眾留言話工作壓力好大，今日我哋就嚟傾吓 "週末點樣解壓"，阿哲你週末一般點樣放鬆嘅呀？
[S1] 我超鍾意踩單車！上個禮拜六沿住濱江路踩咗兩個鐘，風吹喺面上，望住江面波光粼粼嘅，腦入面嗰啲煩人嘅報表全部都唔記得晒，你唔好話，真係比喺屋企瞓晒一日舒服好多。小夏你呢？肯定唔係似我咁 "折騰" 嘅啩？
[S2] 真係唔一樣呀！我鍾意喺屋企手沖咖啡，慢慢磨豆、控制水溫，睇住咖啡液一滴一滴咁濾落嚟，真係特別治癒。上個禮拜仲試咗新嘅耶加雪菲豆，酸感好清新，配住自己焗嘅曲奇，一個下午就咁過咗。係喇，你踩單車嗰陣會唔會遇到啲咩有趣嘅事？

上面这个其实是我通过大模型自动转的，我给大家写了个提示词框架，只要你传入普通话文本，以及想要的方言就行，工作流里面体现了。

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

效果还是不错的，下面是分别三种语言，目前官方就提供这三种貌似。
粤语：
四川：
[S1]各位《巴适得板》的听众些，大家好噻！我是你们主持人晶晶。今儿天气硬是巴适，不晓得大家是在赶路嘛，还是茶都泡起咯，准备跟我们好生摆一哈龙门阵喃？
[S2]晶晶好哦，大家安逸噻！我是李老倌。你刚开口就川味十足，"摆龙门阵"几个字一甩出来，我鼻子头都闻到茶香跟火锅香咯！
[S1]就是得嘛！李老倌，我前些天带个外地朋友切人民公园鹤鸣茶社坐了一哈。他硬是搞不醒豁，为啥子我们一堆人围到杯茶就可以吹一下午壳子，从隔壁子王嬢嬢娃儿耍朋友，扯到美国大选，中间还掺几盘斗地主。他说我们四川人简直是把"摸鱼"刻进骨子里头咯！
[S2]哈哈，你那个朋友说得倒是有点儿趣，但他莫看到精髓噻。"摆龙门阵"哪是摸鱼嘛，这是我们川渝人特有的交际方式，更是一种活法。外省人天天说的"松弛感"，根根儿就在这龙门阵里头。今天我们就要好生摆一哈，为啥子四川人活得这么舒坦。就先从茶馆这个老窝子说起，看它咋个成了我们四川人的魂儿！

河南：
对了，给你们对比下用了方言模型和不用方言模型的对比
河南话文本：
[S1]哎，大家好啊，欢迎收听咱这一期嘞《瞎聊呗，就这么说》，我是恁嘞老朋友，燕子。
[S2]大家好，我是老张。燕子啊，今儿瞅瞅你这个劲儿，咋着，是有啥可得劲嘞事儿想跟咱唠唠？
[S1]哎哟，老张，你咋恁懂我嘞！我跟你说啊，最近我刷手机，老是刷住些可逗嘞方言视频，特别是咱河南话，咦～我哩个乖乖，一听我都憋不住笑，咋说嘞，得劲儿哩很，跟回到家一样。
[S2]哈哈哈哈，你这回可算说到根儿上了！河南话，咱往大处说说，中原官话，它真嘞是有一股劲儿搁里头。它可不光是说话，它脊梁骨后头藏嘞，是咱一整套、鲜鲜活活嘞过法儿，一种活人嘞道理。
[S1]活人嘞道理？哎，这你这一说，我嘞兴致“腾”一下就上来啦！觉住咱这嗑儿，一下儿从搞笑视频蹿到文化顶上了啊。那你赶紧给我白话白话，这里头到底有啥道道儿？我特别想知道——为啥一提起咱河南人，好些人脑子里“蹦”出来嘞头一个词儿，就是实在？这个实在，骨子里到底是啥嘞？

不用方言：

用方言：
还是可以区分出来的吧，用了方言版的模型，效果会更好一些。

3.3 副语言控制（叹息、咳嗽、笑等）
最后一个场景是副语言控制，展示模型控制语音中非语言信息（如笑声、叹气声、清嗓子等）的能力。
写法：
笑：<|laughter|>
叹气：<|sigh|>
咳嗽：<|coughing|>
呼吸：<|breathing|>

下面是一个案例
[S1]哈喽，AI时代的冲浪先锋们！欢迎收听《AI生活进行时》。啊，一个充满了未来感，然后，还有一点点，<|laughter|>神经质的播客节目，我是主持人小希。
[S2]哎，大家好呀！我是能唠，爱唠，天天都想唠的唠嗑！
[S1]最近活得特别赛博朋克哈！以前觉得AI是科幻片里的，<|sigh|> 现在，现在连我妈都用AI写广场舞文案了。
[S2]<|laughter|>这个例子很生动啊。是的，特别是生成式AI哈，感觉都要炸了！诶，那我们今天就聊聊AI<|breathing|>AI是怎么走进我们的生活的哈！
[S1]没错。
[S2]<|coughing|>，比如ChatGPT的写作能力啊，我有个程序员朋友，现在用ChatGPT三分钟<|breathing|>三分钟就能写出感情充沛的周报，<|laughter|>把老板都看傻了都。

厉害了，你听音频，可以听到里面的笑声，叹气等。
这个算是新东西，比以前的IndexTTS2好得多。

注意事项
这个算是最新的语言模型了，整体效果不错，方言以及副语言的功能很棒。
本地安装的话依赖transformers有点高了，大家做取舍吧，记得提前备份下python文件，万一有问题，可以覆盖还原。
四、在线使用
云端镜像
大家如果没有本地 ComfyUI 环境，或者本地显卡配置低于 16G 的，可以使用嘟嘟部署的仙宫云镜像，可直接加载使用。后续分享的工作流都会更像到镜像中，一周更新一次，方便大学学习。
目前整合了2个镜像，一个是Flux绘图用的，另外一个是针对视频模型的，之所以分开是一些模型兼容问题，分开比较好处理。
镜像名称：嘟嘟AI绘画趣味学

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控 ...

云平台镜像地址：
https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY
https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY
新用户通过邀请码注册，总共可获得 8 元奖励，体验 4 个小时的 4090 作图时长。

模型工作流获取

嘟嘟公众号对话框发送 251101即可！

播客制作效率翻倍：SoulX-Podcast 支持多说话人自动切换，方言 / 副语言全可控

浏览过的版块