SteadyDancer开源:首个实现首帧保留的I2V人像动画框架,告别身份漂移!
01
引言
现有人像动画的主流Reference-to-Video范式因忽视时空错位,常导致身份漂移与视觉伪影。针对这一痛点,南京大学、腾讯PCG、上海人工智能实验室联合推出并开源SteadyDancer,这是首个基于Image-to-Video范式并稳健实现首帧保留的框架。通过引入条件协调机制、协同姿态调制模块及分阶段解耦目标训练流程,该模型成功攻克了外观保真度与运动控制难以兼得的难题,在显著降低训练资源消耗的同时,生成了协调且连贯的高质量视频。
开源地址:
Project:https://mcg-nju.github.io/steadydancer-web
Github:https://github.com/MCG-NJU/SteadyDancer
Modelscope:https://modelscope.cn/models/MCG-NJU/SteadyDancer-14B
ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper
02
研究动机
当前人像动画技术(Human Image Animation)在影视制作与游戏开发等领域展现出巨大潜力,特别是基于扩散模型的突破显著提升了视频生成的质量。然而,该论文指出,大多数现有方法遵循Reference-to-Video(R2V)范式,将参考图像直接绑定到驱动姿态上,这种做法放宽了输入间的对齐约束。在实际应用中,由于图像与姿态之间往往存在空间结构与时间幅度上的固有差异,R2V范式的松散约束容易导致严重的伪影、外观变形以及时间上的不连贯。特别是在起始动作不匹配的场景下,R2V方法无法实现从参考状态到驱动动作的平滑过渡,难以满足影视后期等对高保真度有严格要求的应用场景。
SteadyDancer开源:首个实现首帧保留的I2V人像动画框架,告别身份漂移!
鉴于此,该论文主张Image-to-Video(I2V)范式是更为理想的解决方案,因为它能通过首帧保留机制确保视频生成的一致性与连贯性,最大化视觉保真度。然而,I2V范式的相关研究目前尚显匮乏且极具技术挑战性。这是由于该范式要求所有输入条件与生成结果必须严格忠实于初始帧,需要将姿态信号精细调制以适配参考图像,这对模型在严格对齐约束下的运动控制能力提出了极高要求。
03
主要贡献
该论文的主要贡献在于提出了SteadyDancer,这是一个基于I2V范式的新颖高保真动画框架,率先实现了首帧保留功能,并显著提高了训练资源的利用效率。
为了解决参考图像与驱动姿态之间的冲突及不匹配问题,并提升训练效率,SteadyDancer引入了三大核心技术策略。首先,该论文设计了条件协调机制(Condition-Reconciliation Mechanism),通过优化条件融合、注入和增强三个层面,在不牺牲首帧保真度的前提下实现了精确的动作驱动控制,从而解决了外观保留与运动控制之间的权衡难题。其次,针对参考图像与驱动姿态的时空错位问题,SteadyDancer引入了协同姿态调制模块(Synergistic Pose Modulation Modules),其中包含空间结构自适应细化器、时间运动一致性模块以及逐帧注意力对齐单元,以提取更能适应参考图像的姿态表征。最后,为了实现高效且稳定的模型训练,该论文提出了分阶段解耦目标训练流程(Staged Decoupled-Objective Training Pipeline),通过动作监督、条件解耦蒸馏以及运动不连续性缓解三个阶段,确保生成视频的高质量与流畅性,且所用训练资源显著低于现有方法。此外,鉴于现有同源基准测试难以有效评估时空错位问题,该论文还构建了一个名为 X-Dance 的全新异源基准测试,专门用于评估模型在空间结构不一致与时间起始间隙等复杂场景下的泛化能力。广泛的定量与定性实验结果表明,SteadyDancer 在多个基准测试上均展现出了超越现有方法的性能与有效性。
03
SteadyDancer 方法简述
SteadyDancer开源:首个实现首帧保留的I2V人像动画框架,告别身份漂移!
朴素的I2V基准模型(Naïve I2V Baseline)为了引入新的运动控制条件,该论文首先构建了一个朴素的I2V基准模型(Naïve I2V Baseline)。在基础的Image-to-Video(I2V)模型中,静态图像 被用作首帧以提供强外观先验,经由VAE编码器 转化为条件潜变量 。在给定的去噪时间步 ,DiT的输入由当前噪声潜变量 、二值掩码 和条件潜变量 通道拼接而成,即 ,同时模型还将全局上下文 和文本条件 注入到DiT的解耦交叉注意力层中。在此基础上,该朴素基准模型为了引入姿态序列 ,复用了图像的VAE编码器将其编码为姿态条件潜变量 ,以确保两者处于同一特征空间。随后,该模型采用逐元素相加的方式将图像与姿态的潜变量进行融合,即 ,试图通过这种方式同时实现外观保留与运动控制。条件协调机制(Condition-Reconciliation Mechanism)针对朴素基准模型中简单叠加融合导致的静态外观与动态姿态冲突问题,该论文提出了条件协调机制(Condition-Reconciliation Mechanism),旨在通过三个层面的优化来解决外观保留与运动控制之间的权衡。首先在 条件融合(Condition Fusion) 方面,SteadyDancer 指出逐元素相加会导致信息混淆与相互干扰,因此将其替换为通道拼接以保持各条件的独立性,公式表示为 ,这种分离策略显著提升了模型对外观和运动信号的学习效果。其次在 条件注入(Condition Injection) 方面,为了避免参数密集型方法(如 Adapter)对预训练模型生成能力的干扰,该论文采用了参数高效策略,直接注入姿态潜变量 并结合 LoRA 微调,从而在增强运动控制的同时有效维持了首帧保真度。最后在 条件增强(Condition Augmentation) 方面,该论文引入了两种增强策略:一是在时间层面上将融合后的潜变量与首帧图像潜变量 及首帧姿态潜变量 进行拼接,即 ,为模型提供明确的起始参考;二是将首帧姿态的 CLIP 特征拼接到全局上下文 中,以提供更丰富的语义嵌入。这两者协同工作,进一步强化了身份保留与视觉一致性。协同姿态调制模块(Synergistic Pose Modulation Modules)尽管条件协调机制改善了保真度与控制力的平衡,但该论文指出时空错位带来的挑战依然严峻。在空间层面,源图像与驱动姿态在骨架比例等静态属性上的固有差异会导致身份漂移;在时间层面,姿态序列的噪声不仅引发抖动,其与起始状态的不连续性更会严重破坏视觉真实感。为此,SteadyDancer设计了协同姿态调制模块以解决这些冲突。针对空间错位,该论文提出了 空间结构自适应细化器 ,利用动态卷积(dynamic convolution)从输入姿态特征 中自适应生成核,以提取与图像特征空间高度兼容的姿态表征,从而减少融合干扰。针对时间错位,该论文引入了 时间运动一致性模块 ,通过包含深度空间卷积和点式时间卷积的堆叠分解卷积块来建模连续运动动力学,有效平滑序列并抑制伪影。此外,为了强制实现姿态与外观的逐帧精细对应,该论文设计了轻量级的 逐帧注意力对齐单元 ,通过交叉注意力机制让去噪潜变量 作为 Query 去关注姿态潜变量,从而生成经外观校准的姿态表征。最终,SteadyDancer 采用层级聚合策略将上述模块有机结合。分阶段解耦目标训练流程(Staged Decoupled-Objective Training Pipeline)为了实现高效且精准的训练,SteadyDancer 采用了一套分阶段解耦目标训练流程,共分为三个独特的阶段。首先是 动作监督(Action Supervision)阶段 ,其首要目标是快速赋予模型动作控制能力。对于每个视频训练样本,该论文将第一帧固定为参考帧,而整个视频则作为动作条件的来源和监督的目标。同时,SteadyDancer 仅采用基于 LoRA 的微调策略,以保护预训练模型丰富的生成先验不被大幅改变。其次是 条件解耦蒸馏(Condition-Decoupled Distillation)阶段 ,旨在补偿第一阶段中因学习动作控制而导致的生成质量损失,在保持姿态可控性的同时增强逼真的细节。该论文将原始预训练 I2V 模型作为教师模型,用于参数化无条件数据分布,并将第一阶段训练的模型指定为学生模型。教师编码的无条件流形被注入学生模型中,消除了条件网络模仿无条件目标时的分布偏移,从而显著提升了视频质量。最后是 运动不连续性缓解(Motion Discontinuity Mitigation)阶段 ,专门解决测试时参考图像与驱动姿态首帧之间因不匹配导致的突兀跳跃伪影。由于训练数据通常具有完美的起始对齐(),模型缺乏处理首帧错位的经验。为此,该论文提出了姿态模拟(Pose Simulation)策略来引入合理的姿态不匹配的训练数据。04
实验结果
实验设置该论文采用预训练的 Wan-2.1 I2V 14B 视频模型作为初始化基础,整个训练流程被精简为三个阶段,步数分别为 12,000、2,000 和 500 步,总计仅需 14,500 步。与其他基于 DiT 的方法相比,SteadyDancer 所需的训练步数显著减少,这有力地突显了其设计核心的高效性,即无需庞大的数据或计算预算,便能交付具有卓越运动控制能力的高质量流畅视频。
在训练数据方面,该论文构建了一个总时长为 10.2 小时的自建人体运动数据集,包含 7,338 个五秒视频片段。该数据集以高质量舞蹈序列为主,辅以少量慢动作纪录片风格镜头,并有意排除了极端或复杂的动作。值得注意的是,该数据集的规模显著小于同类研究使用的规模,这进一步印证了 SteadyDancer 在数据利用上的高效性与算法设计的优越性。
SteadyDancer开源:首个实现首帧保留的I2V人像动画框架,告别身份漂移!
定量比较
SteadyDancer开源:首个实现首帧保留的I2V人像动画框架,告别身份漂移!
该论文在 TikTok 数据集 和 RealisDance-Val 数据集进行了定量比较。结果显示,SteadyDancer 在所有指标上均取得了极具竞争力的成绩,尤其是在 FVD 和 VBench-I2V 等更具代表性和实用价值的指标上表现优异。值得注意的是,该论文指出了在这些同源基准测试中存在的评估差异。SteadyDancer 严格使用第一帧作为参考帧,而其他方法通常遵循原始设置使用中间帧,这意味着后者在统计上与序列起点和终点的时空距离更短。相比之下,该论文的方法必须应对完整的时空生成跨度。尽管这种设定更具挑战性且可能导致指标上的细微波动,但其更能反映真实场景下的生成能力。
定性比较
SteadyDancer开源:首个实现首帧保留的I2V人像动画框架,告别身份漂移!
为了填补现有同源基准测试无法评估时空错位问题的空白,该论文提出了一个新的异源基准测试 X-Dance。该基准测试由多样化的图像类别(涵盖不同性别、风格及景别)和具有挑战性的驱动视频(包含复杂运动、模糊及遮挡)构建而成,特意引入了空间结构不一致和时间起始间隙,以更稳健地评估模型在真实场景下的泛化能力。在 X-Dance 上的对比显示,面对这些挑战时,其他方法往往既无法保留参考角色的身份,也难以精准跟随驱动动作;而SteadyDancer则生成了协调且连贯的结果,在近乎完美保持首帧身份的同时实现了精确的运动控制。
此外,该论文还在RealisDance-Val数据集上展示了可视化结果,该数据集特别包含了大量具有复杂人-物交互(HOI)的场景,测试了模型在姿态跟随与交互生成上的双重能力。结果表明,即使仅由人体姿态信号驱动,SteadyDancer也能成功合成具有物理合理运动和变形的交互对象,并保持极高的外观保真度。相比之下,竞争模型虽然在人体控制上表现尚可,但在物体交互生成上往往失败,常导致静止伪影或严重的形状崩溃,这进一步凸显了SteadyDancer优越的交互潜力。
05
结论
该论文提出了SteadyDancer,这是一个利用首帧保留技术来实现协调且连贯的人像动画框架。通过引入新颖的条件协调机制与协同姿态调制模块,SteadyDancer有效解决了Image-to-Video范式中协调保真度与运动控制、并确保生成连贯性的核心挑战。此外,该论文设计的分阶段解耦目标训练流程,能够以最小的资源成本高效地优化运动表现、生成质量及连续性。定量与定性实验结果均表明SteadyDancer显著优于现有的竞争方法。这些创新成果为未来稳健的人像动画技术提供了一种坚实且高效的解决方案。
点击阅读原文,即可跳转模型链接~
👇点击关注ModelScope公众号获取更多技术信息~
|