|
|
视频内容概览:Wan Animate 2.2 邪道攻略与超强一致性修复
本期视频深入探讨了Wan Animate 2.2(实际底层模型仍为2.1)的新功能、搭建方式以及一系列“骚操作”工作流,旨在解决AI动画生成中的一致性问题,特别是面部和人物主体替换。
主要内容包括:
- Wan Animate 2.2 的核心特性与局限性:
- 虽然版本号为2.2,但视频指出其底层模型实际为2.1,因此仍可能存在2.1版本的一些固有问题。
- 核心节点允许对背景图像、面部参考图像、姿势图像、参考图像以及Mask(遮罩)进行独立控制,提供了极高的工作流自由度。
- 人体分割与遮罩(Mask)的应用:
- 介绍了Segment Anything v2(SM2)在主体与背景分离中的应用。通过绿色区域定义需要保留的人物,红色点定义不需要的部分,并可手动拖动调整。
- 强调遮罩在人物体态差异较大时(例如人与怪兽)的重要性,需要适当调整“扩展”(Expand)参数。
- 提到在体态差异过大时,使用“葫芦大佬的Segment Anything效果会更好”。
- 模型区配置与性能优化:
- 详细说明了在ComfyUI工作流中所需加载的多个模型,包括LX2V 2.2的低模(不适用于2.1高模),fast one加速模型,PUS加速框架,以及最新的2.2运动加强模型(HPS),并指出HPS在2.1上表现不错但需要较低权重。
- 讨论了imate rel LoRA模型的使用,强调应使用KJ发布的版本而非官方版本。
- 对比了FP32、FP16和FP8的精度与速度,并展示了在特定工作流下,FP8在保持质量的同时能显著提升速度。
- 工作流实践与“骚操作”技巧:
- 姿态迁移(Move模式):通过注释掉遮罩和背景部分,工作流直接从Mix模式转变为Move模式,实现纯粹的姿态迁移,且FP8与BF16效果一致。
- Infinite Talk 应用:
- 讲解了如何结合multialk inbase和in talk模型进行面部动作控制,即使在权重相加会报错的情况下,仍可单独加载in talk的云模型。
- 展示了在身体动作和面部动作需要分离时(例如一个人的身体动作,另一个人的脸部动作),Infinite Talk可以作为“稳定器”,使人物面部表情更自然。
- 运镜增强(Uni3C):
- 介绍了Uni3C运镜节点,可上传任何带有动态的视频来获得更丰富的镜头运动效果,如摇晃、穿梭、放大推进等,使画面更具动感。
- 超强一致性修复(Mix模式下3C的奇特用法):这是视频中的一个“意外发现”或“骚操作”。在Mix模式下,当不使用模板和人物替换时(即源图模式),Uni3C节点并不会改变运镜,反而会参考3C视频的某个部分,大幅度提高人物(尤其是人脸)的一致性。作者建议选择同人物的其他视频进行3C参考,以获得“双餐”效果,增强一致性并避免人脸走形。
- 可分离背景(Background Mask):
- 演示了如何将背景与人物主体分离并替换。需要使用image repeat节点确保背景帧数与视频帧数一致,避免报错。
- 强调将“图像列表”转换为“图像批次”(Image Batch)以提高处理速度,减少重复计算。
- 非人类主体的生成:
- 针对非人类主体,介绍了face image部分可以直接注释掉,并使用“空图像”节点配合尺寸参数(宽度、高度、总帧数)传入Face Image,避免人脸参考对非人类主体产生干扰。
- 提到如果出现人物头发等残留,通常是遮罩(mask)未完全覆盖导致。
- Segment Anything Archer v3 配合:
- 使用了“葫芦大佬的segment anything archer v3”,通过直接输入human进行识别,并强调了遮罩扩展(Expand)参数的微调非常关键。过高的扩展值可能导致多余的帽子、黑色调等,需要适当调低;过小则需提高。
零散的关键知识点与技术经验 (Tips)
- RHub平台:作者常用的AI工作台,每天发布最新技术和工作流,都是开源免费。通过简介链接注册送1000点,每天登录送100点,可免费体验。
- Wan Animate 版本识别:即使界面显示2.2,其底层模型仍可能是2.1,因此在预期效果上要有所保留。
- 核心节点独立性:Wan Animate的核心节点(背景、面部、姿势、参考、Mask)都可以独立使用,这意味着工作流可以千变万化,灵活组合。
- 遮罩扩展参数调整:当人物体态差异大时,适当调整遮罩的扩展值是关键。过大会出现多余部分,过小则可能截断。建议每次调整为之前的一半,或提高一倍。
- 模型加载速度:模型的选择对ComfyUI工作流的运行速度影响巨大。作者提到自己发布的300秒就能跑完,而有些用户的KJ工作流半小时都跑不出来,原因就在于模型配置。
- LX2V 低模 vs 高模:LX2V的2.2低模适用于2.1版本,而高模不适用,直接使用会出问题,且当时高模训练过度导致效果不佳。
- Wan Animate relight LoRA选择:使用KJ发布的relight LoRA,不要用官方版本,官方版本有问题。
- FP精度选择:
- BF16理论上效果更好,FP8理论上效果更差。
- 但在作者的工作流中,FP8不仅能提高速度,还能稳定质量,与BF16在视觉上几乎无差异。
- FP32一直存在,但FP16通常也足够使用,影响不大。
- Infinite Talk 的局限性:目前KJ(ComfyUI)还不支持Infinite Talk的权重相加,会导致“张量超过”的错误。需要等待作者更新。但仍可通过加载其云模型来作为面部稳定器。
- 脸部检测与裁剪范围调整:当脸部特别大或特别小时,检测出的裁剪范围可能不准确。目前是手动调整base resolution和裁剪范围,未来可考虑加入ONNX脸部识别节点进行自动化。
- Mix模式下Uni3C的特殊作用:在Mix模式下使用Uni3C,运镜不会改变,但会通过参考3C视频的某一部分来提高人物(尤其是人脸)的一致性,起到“双餐”强化效果。
- 背景替换的帧数一致性:进行背景替换时,背景图像的帧数必须与动画的总帧数相同,需要使用image repeat节点进行重复,否则可能报错或只显示单帧背景。
- 图像列表转批次:将“图像列表”转换为“图像批次”可以显著提高处理速度,避免重复计算每帧的时间。虽然批次处理会占用更多显存,但速度更快。
- 动态背景的利用:目前背景是静态图重复,可以考虑直接下载动态视频作为背景,避免手动重复,效果会更好。
- 非人类主体工作流的注意事项:在制作非人类主体时,务必通过“空图像”节点避免人脸参考,否则容易出现问题。
- Segment Anything Archer v3 的“human”提示:使用此模型可以直接输入human进行人物识别和遮罩生成。
- Sift参数调整:
- 动作速度特别快时,适当提高Sift值。
- 动作表演非常细腻时,可以下降Sift值。
- 此参数可提高生成质量,但需要自行尝试。
- 模型查找技巧:如果找不到视频中提到的模型,可以在作者的视频中搜索对应模型的名字,因为他每节课都教授过。
|
|