DFL 能否复制或平均（合并）A、B权重

LeoSasion · 2026-6-17 04:15:24

如果只是粗暴丢弃一边 decoder，或者简单平均 before/after decoder 权重，本质上接近重新开一个新模型，甚至可能比重开更差。
原因是：
shared encoderbefore decoderafter decoder两个 decoder 虽然结构一样，但训练过程中已经各自适应了不同数据分布。它们的每一层通道不保证语义对齐。比如 before decoder 的第 37 个通道可能偏“眼眶阴影”，after decoder 的第 37 个通道可能偏“胡须纹理”。直接平均权重不等于平均能力，可能是把两个已经分化的特征空间搅在一起。

丢弃一边权重：

保留 before decoder：姿态/表情可能好，但身份更像 DST。
保留 after decoder：身份纹理可能更像 SRC，但姿态覆盖弱，容易正脸化。
等于只继承了一半能力。

合并两边权重：

如果是简单平均，大概率会造成短期画质下降。
不是稳定的“共享 decoder 初始化”，更像把两个不同坐标系硬拧到一起。
后续需要重新适应，训练成本接近重开。

但它和完全重开也有一点区别：encoder 权重还是有价值的。
当前 encoder 已经学会了 aligned face 的基础表示，包括脸部结构、光照、表情、遮罩相关特征。这部分可以保留。真正不太值得硬转的是两个 decoder。

DFL 能否复制或平均（合并）A、B权重

浏览过的版块

曼加塔第一期

曼加塔第二期