SoulX-Podcast：迈向具有方言和副语言多样性的现实长篇播客

Smile · 2025-10-30 13:01:53

本帖最后由 Smile 于 2025-11-1 11:39 编辑

文本转语音 (TTS) 合成技术的最新进展显著提升了语音的表现力和自然度。然而，大多数现有系统仅针对单说话人合成，在生成连贯的多说话人对话语音方面存在不足。本技术报告介绍了 SoulX-Podcast，该系统旨在生成播客风格的多轮多说话人对话语音，同时在传统的文本转语音 (TTS) 任务中也达到了最佳性能。为了满足多轮口语对话对自然度的更高要求，SoulX-Podcast 集成了一系列副语言控制功能，支持普通话、英语以及包括四川话、河南话和粤语在内的多种中国方言，从而实现更加个性化的播客风格语音生成。实验结果表明，SoulX-Podcast 可以连续生成超过 90 分钟的对话，且说话人音色稳定，过渡流畅。此外，说话人表现出语境自适应的韵律，随着对话的进行，节奏和语调会自然变化。在多个评估指标中，SoulX-Podcast 在独白 TTS 和多轮对话语音合成方面均实现了最先进的性能。

SoulX-Podcast

现已支持ComfyUI,插件地址: https://github.com/flybirdxx/ComfyUI-SoulX-Podcast

一件整合包,6G显存可畅玩

链接：https://pan.quark.cn/s/503adf978e0b?pwd=mmcR
提取码：mmcR

Smile · 2025-11-1 11:39:08

一件整合包,6G显存可畅玩

链接：https://pan.quark.cn/s/503adf978e0b?pwd=mmcR
提取码：mmcR

SoulX-Podcast：迈向具有方言和副语言多样性的现实长篇播客

浏览过的版块