简体中文 English 日本語 Русский язык 한어

200

主题

127

回帖

4万

修为

站长

积分
101632

曼加塔第一期曼加塔第二期

如果只是粗暴丢弃一边 decoder,或者简单平均 before/after decoder 权重,本质上接近重新开一个新模型,甚至可能比重开更差。
原因是:
shared encoderbefore decoderafter decoder两个 decoder 虽然结构一样,但训练过程中已经各自适应了不同数据分布。它们的每一层通道不保证语义对齐。比如 before decoder 的第 37 个通道可能偏“眼眶阴影”,after decoder 的第 37 个通道可能偏“胡须纹理”。直接平均权重不等于平均能力,可能是把两个已经分化的特征空间搅在一起。

丢弃一边权重
  • 保留 before decoder:姿态/表情可能好,但身份更像 DST。
  • 保留 after decoder:身份纹理可能更像 SRC,但姿态覆盖弱,容易正脸化。
  • 等于只继承了一半能力。
合并两边权重
  • 如果是简单平均,大概率会造成短期画质下降。
  • 不是稳定的“共享 decoder 初始化”,更像把两个不同坐标系硬拧到一起。
  • 后续需要重新适应,训练成本接近重开。

但它和完全重开也有一点区别:encoder 权重还是有价值的。
当前 encoder 已经学会了 aligned face 的基础表示,包括脸部结构、光照、表情、遮罩相关特征。这部分可以保留。真正不太值得硬转的是两个 decoder。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

简体中文
繁體中文
English(英语)
日本語(日语)
Deutsch(德语)
Русский язык(俄语)
بالعربية(阿拉伯语)
Türkçe(土耳其语)
Português(葡萄牙语)
ภาษาไทย(泰国语)
한어(朝鲜语/韩语)
Français(法语)
QQArchiver手机版小黑屋粤ICP备2026002389号-1粤ICP备2026002389号-1 简体中文 English 日本語 Русский язык 한어 |网站地图