SRC只要角度丰富，不需要遮挡丰富

LeoSasion · 2026-6-17 04:17:19

DFL 一般不需要匹配一个同样遮挡程度的 SRC。它的核心逻辑更接近：
DST 有遮挡 -> 用 DST mask 决定哪些区域允许换脸SRC 主要学习无遮挡身份/纹理/五官最终只在 DST 可换区域内生成/融合 SRC 脸也就是说，遮挡主要由 DST 的 mask / XSeg mask / 手工 mask 控制，而不是要求 SRC 里也有同款遮挡。
在 DFL 里通常有几层含义：
dst mask：告诉模型/合成器“这张目标脸哪些地方能被替换”。如果手、麦克风、头发、眼镜框遮住脸，好的 DST mask 会把遮挡物排除在换脸区域外。
src mask：告诉模型 SRC 人脸自身的有效脸部区域，主要用于学习 SRC 身份脸，而不是学习目标遮挡。
src-dst output mask：换脸输出时由 SRC decoder 针对 DST code 预测出来的 mask，用来决定生成脸的形状和融合范围。
所以如果 DST 嘴巴前有麦克风，理想情况是：
DST mask 不包含麦克风区域模型生成 SRC 脸合成时麦克风区域保留 DST 原图而不是让 SRC 数据也必须有麦克风。
但有一个现实限制：如果 DST 遮挡太严重，比如半张脸都被挡住，模型只能从可见区域和姿态 code 推测。它不会凭空知道被挡住部分的真实表情/嘴型，所以效果依赖：
1. DST mask 是否准确排除遮挡物2. SRC 是否有足够姿态/表情覆盖3. 模型是否学会从 DST 可见部分保持姿态和表情4. 合成阶段是否保留遮挡物在最上层对我们项目来说，正确方向也是一样的：不要要求 SRC 匹配遮挡。我们应该让 Before/DST mask 负责遮挡保护，让 After/SRC mask 负责 SRC 脸型范围。训练时可以这样理解：
Before/DST 图像：提供姿态、表情、光照、遮挡边界After/SRC 图像：提供身份、五官比例、脸型、纹理Before mask：决定哪些区域不能乱动，尤其遮挡物After mask：决定生成的 SRC 脸应该长成什么轮廓所以遮挡严重时，我们要优化的是 DST mask/XSeg 质量和融合逻辑，不是去找“同样遮挡的 SRC”。

SRC只要角度丰富，不需要遮挡丰富

曼加塔第一期

曼加塔第二期