Comfyui论坛.AIGC.BBS.Monster语音合成技术研讨王炸开源！IndexTTS2 语音克隆封神：30 秒克隆 97% 相似度声音，3 种情感操控｜附安装地狱破解教程大家好，我是嘟嘟，深耕ComfyUI赛道的程序员。9 月 8 日开源的 IndexTTS2 成语音克隆王炸！支持单人 / 多人克隆，3 种情感方案（提示词 / 音频 / 向量），ComfyUI 插件已更 ...

嘟先生 发表于 2025-9-10 13:54:00

王炸开源！IndexTTS2 语音克隆封神：30 秒克隆 97% 相似度声音，3 种情感操控｜附安装地狱破解教程

大家好，我是嘟嘟，深耕ComfyUI赛道的程序员。9 月 8 日开源的 IndexTTS2 成语音克隆王炸！支持单人 / 多人克隆，3 种情感方案（提示词 / 音频 / 向量），ComfyUI 插件已更，附教程破解安装难题。这个插件很难装，各位做好心理装备！一、IndexTTS2介绍
哇，今天这个厉害了，语音克隆的王炸IndexTTS2终于在9月8号开源了，效果好是真的好，但是难装也是真的难。IndexTTS2支持单人多人声音克隆，并且支持情感，三种方案支持情感处理,分别是：提示词、情感音频参考、情绪控制向量。技术架构：官方案例：
[*]项目介绍：https://github.com/index-tts/index-tts
[*]演示页面：https://index-tts.github.io/index-tts2.github.io/
二、相关安装ComfyUI插件地址：https://github.com/billwuhao/ComfyUI_IndexTTS安装这个我之前各种报错，大家要尝试做好心理准备，看看问题列表别人的反馈。我安装正常修改如下几个部分，大家当做参考吧：transformers版本4.51.3 轮子安装：
[*]pynini轮子安装：https://github.com/billwuhao/pyn ... es/tag/v2.1.6.post1
[*]deepspeed轮子重新安装：https://github.com/6Morpheus6/deepspeed-windows-wheels/releases
插件requirements.txt注释掉如下几行：对了，本地环境推荐大家更新到torch2.7+cuda12.8，因为现在很多轮子是对这个支持比较好，上面deepspeed轮子最低要求也是这个。我一开始一直开在pynini编译报错，我自己的轮子安装也不行，后来别人提示说注释掉原来requirements.txt的那几行才行，这样就会用我自己编译好的，而不是重新去编译。用到的模型我已经放到网盘了，文末获取。模型存放路径：ComfyUImodelsTTS
三、测评体验
[*]IndexTTS2单人音色克隆（三种带情绪方案）： https://www.runninghub.cn/post/1 ... iteCode=kol01-rh024
[*]IndexTTS2双人音色克隆（带情绪）：https://www.runninghub.cn/post/1 ... iteCode=kol01-rh024
终于来到大家激动的测试环节了，本地实在安装不了的先去RunningHub上体验，这次玩法一共分成两块
[*]单人音色克隆
[*]多人音色克隆
3.1 单人克隆单人方面给大家弄了4种方式，分别是不带情况，文本情感方案、语音情绪参考方案、情感向量方案。在开始前，先把一些重要参考列出来V2重要参数说明（全是可选的）：
deepspeed: 是否开启 deepspeed 加速（需要先安装deepspeed）。
emo_audio_prompt: 第一个说话人，情绪音频参考。
emo_alpha: 第一个说话人，情绪强度。
emo_vector: 第一个说话人，情绪控制向量，英文格式输入类似这样的列表（每一个强度范围0-1，表示惊喜强度 0.45），数字分别对应 : ，几乎无限组合。
use_emo_text: 第一个说话人，是否开启提示词控制情绪。如果使用提示词控制，情绪参考音频失效。
emo_text: 第一个说话人，情绪控制提示词。随便写，例如哭哭。。。苦苦。。。
use_random: 第一个说话人，是否开启随机性。
emo_audio_prompt_s2: 第二个说话人，同上。
emo_alpha_s2: 第二个说话人，同上。
emo_vector_s2: 第二个说话人，同上。
use_emo_text_s2: 第二个说话人，同上。
emo_text_s2: 第二个说话人，同上。
use_random_s2: 第二个说话人，同上。
如果不提供任何情绪控制，自动使用克隆音频作为情绪参考。

重要参数说明(其他参数不是很重要的就不一一介绍了):
max_mel_tokens: 控制生成的语音长度, 长文本需要增加这个参数.
max_text_tokens_per_sentence: 分句的最大token数，越小，推理速度越快，占用内存更多，可能影响质量
sentences_bucket_max_size: 分句分桶的最大容量，越大，推理速度越快，占用内存更多，可能影响质量
fast_inference: 开启快速推理
custom_cuda_kernel: 开启自定义 CUDA 内核, 第一次运行将自动构建 CUDA 内核扩展
dialogue_audio_s2: 双人会话时的第二个音频, 如果输入这个音频, 自动启动会话模式. 会话模式下, 输入文本必须如下( 表示第一个说话者, 表示第二个说话者):

轻喘像风掠过耳畔，
你靠近时，连呼吸都慢了半拍。
指尖在我锁骨上游移，
仿佛试探一扇未曾开启的门。

不带情感方案下面这个是不带情感的基础节点，只要把audio和text这2个参数接入即可。
我的原音：下面是不带任何方案跑的效果，这个是和我声音很像的文本带情绪的方案核心看我箭头，把use_emo_text开启，然后传入情绪文本即可，喜怒哀乐都行，我这里是生气。生气的情绪是很到位了，但是感觉不像我的声音了，我这里权重是1
语音情绪参考方案
这种方案是传入一份沮丧的情绪语音作为参考这个沮丧的感觉有，声音有点像，但是和卖家秀有点差距。
情感向量方案
情感方案是这样。传入一个规则数组就行，规则参考上面列的参数说明。我这里是惊喜这个情感设置了0.45
这个情绪也到位了，但是音色好像也有点不像，权重0.45目前，可能还需要调低。
阶段总结好像除了默认的像，其他几种带情绪的方案都不是很像，情绪是有了，但是音色变化，不像我的声音了，真奇怪，这里需要调低强度再测试，大家也试试看。3.2 双人版本
双人克隆声音的话，核心是主要书写格式,用和来区分开来即可，然后分别上传2个音频信息进来。最近大家都学 AI，我们也学不？
AI 挺有用，你想学哪块？
想提高效率，比如快速做 PPT。
那先学基础的，用 AI 生成内容。
好，今晚试试，你教我？
行，现在搜免费教程，先体验下。双人效果语音还是不错的，如果我不上传额外的情绪作为参考，就会默认用原声里面的情绪。四、在线使用云端镜像大家如果没有本地 ComfyUI 环境，或者本地显卡配置低于 16G 的，可以使用嘟嘟部署的仙宫云镜像，可直接加载使用。后续分享的工作流都会更像到镜像中，一周更新一次，方便大学学习。目前整合了2个镜像，一个是Flux绘图用的，另外一个是针对视频模型的，之所以分开是一些模型兼容问题，分开比较好处理。镜像名称：嘟嘟AI绘画趣味学云平台镜像地址：https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLYhttps://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY新用户通过邀请码注册，总共可获得 8 元奖励，体验 4 个小时的 4090 作图时长。RH平台推荐不想本地自己折腾的同学一个可在线使用Runninghub平台可在线体验AI应用和工作流（注册即送1000积分可用）。https://www.runninghub.cn/?inviteCode=kol01-rh024主页更多精彩工作流可在线体验： https://www.runninghub.cn/user-c ... iteCode=kol01-rh024五、总结以上就是对IndexTTs2最新声音克隆技术介绍，这个有点搞不懂了，卖家秀里面效果是很好的，怎么这个ComfyUI插件里面体验起来效果有点落，大家先自己安装玩玩，后面看看作者是否有更新。技术的迭代是飞快的，要关注最新的消息才不会掉队。关注我，每天分享最新的ComfyUI技术前沿模型工作流获取本公众号对话框发送 250910 即可！推荐阅读
Qwen Image Edit偏移问题有重大进展，大佬分享解决方案新思路Qwen-Image加速大升级！3G显存就能跑得飞起，Nunchaku V1正式发布！比IndexTTS强太多？ComfyUI最值得玩的开源语音克隆框架→MegaTTS3！【开源福利】音视频配音困境被打破！混元Foley让无声视频秒变震撼大片字节新框架USO来了！碾压IPAdapter，风格与主体双修的终极神有粉丝问我是如何学习AI的，我最主要的学习社群是在一个叫AI破局俱乐部的知识星球，目前人员5万多人，包含了最前沿的AI知识信息和相关教程，我同时也是里面的绘画方向的实战教练，每年有4-5次的为期21天的行动营（免费参与）。下面是AI破局三天体验卡能体验AI破局90-180天内容所有AI的内容，信息资源（如AI带货，AI代写，AI自媒体，AI出海，AI办公、AI企培、AI编程、AI视频、AI智能体）。对AI和破局不感兴趣的，三天体验不说话不学习的，打酱油的不要扫码添加，浪费名额会永久禁止加入！
更多AI绘画相关信息，可关注我的免费知识星球
PS：因公众号平台更改了推送规则，如果不想错过内容，记得读完点一下“在看”，加个“星标”，这样每次新文章推送才会第一时间出现在你的订阅列表里。点“在看”支持我呀，谢谢啦！字节新框架USO来了！」碾压IPAdapter，风格与主体双修的终极神器

页: [1]

Comfyui论坛.AIGC.BBS.Monster's Archiver

王炸开源！IndexTTS2 语音克隆封神：30 秒克隆 97% 相似度声音，3 种情感操控｜附安装地狱破解教程