Time-to-Move (TTM) 是一种即插即用的技术,可以集成到任何图像到视频的扩散模型中。我们提供了 Wan 2.2 、 CogVideoX 和稳定视频扩散 (SVD) 的实现。正如预期的那样,基础模型越强大,生成的视频质量就越好。将 TTM 适配到新的模型和流程非常简单,通常只需几个小时即可完成。我们建议使用 Wan ,因为它通常能产生更高质量的结果,并且能更忠实地还原用户提供的运动信号。
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock...
双时钟降噪
TTM 依赖于两个超参数,这两个超参数在不同的噪声深度下启动不同的区域。实际上,我们不将 tweak 和 tstrong 作为原始时间步长传递。相反,我们传递 tweak-index 和 tstrong-index ,它们指示每个去噪阶段开始的迭代次数,该次数基于总的 num_inference_steps (所有模型均为 50)。约束条件: 0 ≤ tweak-index ≤ tstrong-index ≤ num_inference_steps 。 - 调整索引 — 当遮罩外的降噪过程开始时。
- 过低:场景变形、物体重复或意外的相机运动。
- 高:遮罩外的区域看起来是静态的(例如,静止的背景)。
- tstrong-index—— 掩膜内去噪过程的起始点。根据我们的经验,这取决于掩膜的大小和质量。
- 高度过低:物体可能会偏离预定路径。
- 太高:物体可能显得僵硬或过于拘束。
|