王炸开源!IndexTTS2 语音克隆封神:30 秒克隆 97% 相似度声音,3 种情感操控|附安装地狱破解教程
大家好,我是嘟嘟,深耕ComfyUI赛道的程序员。9 月 8 日开源的 IndexTTS2 成语音克隆王炸!支持单人 / 多人克隆,3 种情感方案(提示词 / 音频 / 向量),ComfyUI 插件已更,附教程破解安装难题。这个插件很难装,各位做好心理装备!一、IndexTTS2介绍哇,今天这个厉害了, 语音克隆的王炸IndexTTS2终于在9月8号开源了,效果好是真的好,但是难装也是真的难。IndexTTS2支持单人多人声音克隆,并且支持情感,三种方案支持情感处理,分别是:提示词、情感音频参考、情绪控制向量。技术架构:官方案例:
[*]项目介绍:https://github.com/index-tts/index-tts
[*]演示页面:https://index-tts.github.io/index-tts2.github.io/
二、相关安装ComfyUI插件地址:https://github.com/billwuhao/ComfyUI_IndexTTS安装这个我之前各种报错,大家要尝试做好心理准备,看看问题列表别人的反馈。我安装正常修改如下几个部分,大家当做参考吧:transformers版本4.51.3 轮子安装:
[*]pynini轮子安装:https://github.com/billwuhao/pyn ... es/tag/v2.1.6.post1
[*]deepspeed轮子重新安装:https://github.com/6Morpheus6/deepspeed-windows-wheels/releases
插件requirements.txt注释掉如下几行:对了,本地环境推荐大家更新到torch2.7+cuda12.8,因为现在很多轮子是对这个支持比较好,上面deepspeed轮子最低要求也是这个。我一开始一直开在pynini编译报错,我自己的轮子安装也不行,后来别人提示说注释掉原来requirements.txt的那几行才行,这样就会用我自己编译好的,而不是重新去编译。用到的模型我已经放到网盘了, 文末获取。模型存放路径:ComfyUImodelsTTS
三、测评体验
[*]IndexTTS2单人音色克隆(三种带情绪方案): https://www.runninghub.cn/post/1 ... iteCode=kol01-rh024
[*]IndexTTS2双人音色克隆(带情绪):https://www.runninghub.cn/post/1 ... iteCode=kol01-rh024
终于来到大家激动的测试环节了,本地实在安装不了的先去RunningHub上体验,这次玩法一共分成两块
[*]单人音色克隆
[*]多人音色克隆
3.1 单人克隆单人方面给大家弄了4种方式,分别是不带情况,文本情感方案、语音情绪参考方案、情感向量方案。在开始前,先把一些重要参考列出来V2重要参数说明(全是可选的):
deepspeed: 是否开启 deepspeed 加速(需要先安装deepspeed)。
emo_audio_prompt: 第一个说话人,情绪音频参考。
emo_alpha: 第一个说话人,情绪强度。
emo_vector: 第一个说话人,情绪控制向量,英文格式输入类似这样的列表 (每一个强度范围0-1,表示惊喜强度 0.45),数字分别对应 : , 几乎无限组合。
use_emo_text: 第一个说话人,是否开启提示词控制情绪。如果使用提示词控制,情绪参考音频失效。
emo_text: 第一个说话人,情绪控制提示词。随便写,例如 哭哭。。。苦苦。。。
use_random: 第一个说话人,是否开启随机性。
emo_audio_prompt_s2: 第二个说话人,同上。
emo_alpha_s2: 第二个说话人,同上。
emo_vector_s2: 第二个说话人,同上。
use_emo_text_s2: 第二个说话人,同上。
emo_text_s2: 第二个说话人,同上。
use_random_s2: 第二个说话人,同上。
如果不提供任何情绪控制,自动使用克隆音频作为情绪参考。
重要参数说明(其他参数不是很重要的就不一一介绍了):
max_mel_tokens: 控制生成的语音长度, 长文本需要增加这个参数.
max_text_tokens_per_sentence: 分句的最大token数,越小,推理速度越快,占用内存更多,可能影响质量
sentences_bucket_max_size: 分句分桶的最大容量,越大,推理速度越快,占用内存更多,可能影响质量
fast_inference: 开启快速推理
custom_cuda_kernel: 开启自定义 CUDA 内核, 第一次运行将自动构建 CUDA 内核扩展
dialogue_audio_s2: 双人会话时的第二个音频, 如果输入这个音频, 自动启动会话模式. 会话模式下, 输入文本必须如下( 表示第一个说话者, 表示第二个说话者):
轻喘像风掠过耳畔,
你靠近时,连呼吸都慢了半拍。
指尖在我锁骨上游移,
仿佛试探一扇未曾开启的门。
不带情感方案下面这个是不带情感的基础节点,只要把audio和text这2个参数接入即可。
我的原音:下面是不带任何方案跑的效果,这个是和我声音很像的文本带情绪的方案核心看我箭头,把use_emo_text开启,然后传入情绪文本即可,喜怒哀乐都行,我这里是生气。生气的情绪是很到位了,但是感觉不像我的声音了,我这里权重是1
语音情绪参考方案
这种方案是传入一份沮丧的情绪语音作为参考这个沮丧的感觉有,声音有点像,但是和卖家秀有点差距。
情感向量方案
情感方案是这样。传入一个规则数组就行,规则参考上面列的参数说明。我这里是惊喜这个情感设置了0.45
这个情绪也到位了, 但是音色好像也有点不像,权重0.45目前,可能还需要调低。
阶段总结好像除了默认的像,其他几种带情绪的方案都不是很像,情绪是有了,但是音色变化,不像我的声音了,真奇怪,这里需要调低强度再测试,大家也试试看。3.2 双人版本
双人克隆声音的话,核心是主要书写格式,用和来区分开来即可,然后分别上传2个音频信息进来。 最近大家都学 AI,我们也学不?
AI 挺有用,你想学哪块?
想提高效率,比如快速做 PPT。
那先学基础的,用 AI 生成内容。
好,今晚试试,你教我?
行,现在搜免费教程,先体验下。双人效果语音还是不错的,如果我不上传额外的情绪作为参考,就会默认用原声里面的情绪。四、在线使用云端镜像大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。镜像名称:嘟嘟AI绘画趣味学云平台镜像地址:https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLYhttps://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长。RH平台推荐不想本地自己折腾的同学一个可在线使用Runninghub平台可在线体验AI应用和工作流(注册即送1000积分可用)。https://www.runninghub.cn/?inviteCode=kol01-rh024主页更多精彩工作流可在线体验: https://www.runninghub.cn/user-c ... iteCode=kol01-rh024五、总结以上就是对IndexTTs2最新声音克隆技术介绍,这个有点搞不懂了,卖家秀里面效果是很好的,怎么这个ComfyUI插件里面体验起来效果有点落,大家先自己安装玩玩,后面看看作者是否有更新。技术的迭代是飞快的,要关注最新的消息才不会掉队。关注我,每天分享最新的ComfyUI技术前沿模型工作流获取本公众号对话框发送 250910 即可!推荐阅读
Qwen Image Edit偏移问题有重大进展,大佬分享解决方案新思路Qwen-Image加速大升级!3G显存就能跑得飞起,Nunchaku V1正式发布!比IndexTTS强太多?ComfyUI最值得玩的开源语音克隆框架→MegaTTS3!【开源福利】音视频配音困境被打破!混元Foley让无声视频秒变震撼大片字节新框架USO来了!碾压IPAdapter,风格与主体双修的终极神有粉丝问我是如何学习AI的,我最主要的学习社群是在一个叫AI破局俱乐部的知识星球,目前人员5万多人,包含了最前沿的AI知识信息和相关教程,我同时也是里面的绘画方向的实战教练,每年有4-5次的为期21天的行动营(免费参与)。下面是AI破局三天体验卡能体验AI破局90-180天内容所有AI的内容,信息资源(如AI带货,AI代写,AI自媒体,AI出海,AI办公、AI企培、AI编程、AI视频、AI智能体)。对AI和破局不感兴趣的,三天体验不说话不学习的,打酱油的不要扫码添加,浪费名额会永久禁止加入!
更多AI绘画相关信息,可关注我的免费知识星球
PS:因公众号平台更改了推送规则,如果不想错过内容,记得读完点一下“在看”,加个“星标”,这样每次新文章推送才会第一时间出现在你的订阅列表里。点“在看”支持我呀,谢谢啦!字节新框架USO来了!」碾压IPAdapter,风格与主体双修的终极神器
页:
[1]