1

主题

0

回帖

13

贡献

高级合伙人

积分
152
文本转语音 (TTS) 合成技术的最新进展显著提升了语音的表现力和自然度。然而,大多数现有系统仅针对单说话人合成,在生成连贯的多说话人对话语音方面存在不足。本技术报告介绍了 SoulX-Podcast,该系统旨在生成播客风格的多轮多说话人对话语音,同时在传统的文本转语音 (TTS) 任务中也达到了最佳性能。为了满足多轮口语对话对自然度的更高要求,SoulX-Podcast 集成了一系列副语言控制功能,支持普通话、英语以及包括四川话、河南话和粤语在内的多种中国方言,从而实现更加个性化的播客风格语音生成。实验结果表明,SoulX-Podcast 可以连续生成超过 90 分钟的对话,且说话人音色稳定,过渡流畅。此外,说话人表现出语境自适应的韵律,随着对话的进行,节奏和语调会自然变化。在多个评估指标中,SoulX-Podcast 在独白 TTS 和多轮对话语音合成方面均实现了最先进的性能。

SoulX-Podcast

现已支持ComfyUI,插件地址: https://github.com/flybirdxx/ComfyUI-SoulX-Podcast



© 2001-2025 BBS.Monster