19

主题

20

回帖

256

修为

高级合伙人

积分
604
本帖为个人经验分享,无确信性的指导意义,请结合自身经验适当调整

【PAseer】Z-image-Turbo 在AI-toolkit 训练条件中的心得经验(1)
                               
登录/注册后可看大图


Z-image-Turbo作为蒸馏模型,其参数的微调并不是针对Base模型的微调,所以我们训练LORA的意义,如同像是围绕一个锚点向两个方向牵拉。
锚点是Turbo 3.5B模型本身,大方向是Z-image-Base模型,小方向则是我们的数据集。最终蓝色区域为我们用于生成最终图片结果的权重落点
161402v39tq5bz4rblq29l.webp
然而,上图仅表示理论夸张示意图,实际上,LORA训练能够导致的偏移非常微小。


【PAseer】Z-image-Turbo 在AI-toolkit 训练条件中的心得经验(2)
                               
登录/注册后可看大图



一. 系统基础
Pytorch, PEFT和Diffusers为训练LORA的模型解构提供的必要的基础 【1, 2】。
在Z-image-Turbo(以下简称  Zit )的LORA训练中,Diffusers须在0.36.0版本以上,Torch版本可以为2.7.0, 2.7.1, 2.8.0以及2.9.1。
对于训练速度的影响没有显著差异。
182927c1kgfkgk7883jukm.webp

二. 训练集与分辨率
Zit的图片质量很高,但其基础分辨率仍为lumina模型的 768x768 至 1792x1792 像素【3】。
所以,训练的时候,将图片的分桶分辨率,原始数据锚定在这个分辨率氛围之内是良好的选择。
过低的分辨率,如256*256 或者 512*512 在超过约750步(AI-toolkit的默认三次循环)的LORA训练后,会对生图结果产生不可逆的肢体结构质量下降,画面质量下降的后果。
在平衡VRAM(显存-电脑性能),训练速度,与训练质量之间,需要各位做好平衡。
并且这类构图细节质量下降,有时会以【增强了写实颗粒感】的幻觉的方式蒙蔽LORA作者。

三. 提示词文本
Zit 训练基于双语,多格式进行训练 【4】。
对于提示词的需求并不高,在训练风格和特征鲜明的脸型,背景干净的角色,无杂质的物品时,甚至不需要提示词。
Zit的文本处理模块使用千问3的4B便携模型,本体的权重和体量足够坚实,尤其是写实方面的理解。
LORA在训练过程中添加的文本量不足以撼动其映射本质。
但同样的,Zit模型由于过分追求写实质感,导致包括影视,摄像,照片的质感只能局限在一个狭小的范畴中(审美风格偏向于数据筛选员或者程序)。
并且,即使Qwen3-4B的文本模块能够理解大量的动漫/二次元/数字艺术用语,但苦于在预测模型上没有对应的映射空间,最终的结果仍然会归类于小范围或者固定的风格(数据筛选员或程序-的审美风格)。
这是一种官方普遍意义上的遗憾和缺失,但同时也能够表明其二次元/油画/其他画风的微调有了社区必要性。

四. 超参数设置
1e-4作为默认学习率,是偏高的--其过拟合的后果对于人物(比如脸)的影响不高,但对于画面整体噪点于风格的拟合过强。
在解决了位置对齐(Adapter-LORA)后 【5】,8e-5 到 2e-5 的学习率适用于大多数LORA训练,无关内容(风格/人/动漫/艺术原画)。
虽然个人建议添加梯度降低的学习率(如cosine,liner,polynomial),但本讨论仅针对在Ai-toolkit的UI层面,故此处不做展开。
值得注意的是,Ostris(Ai-toolkit的作者)在脚本中添加的两个参数。
184617ywzzrddu027w02kl.webp
Differential Output Preservation (以下简称为DOP)以及 Blank Prompt Preservation (以下简称为BPP)
会显著减弱学习率--因为其效果相当于在训练集中添加一倍或者多倍的无关“训练集”(古称正则化文件集),公式算法的加入会让LORA的权重不断向基础模型靠拢。
所以,在开启其中任意一种时,需要适当提升学习率,以产生足够的权重偏移。

1. DOP:如果想要训练一张特定的脸孔人物,如 A woman,那么不可避免的,映射关系会使得woman也发生预测权重的偏移。DOP的开启,即使用底模本身 woman 的对应权重将LORA的权重向基础模型靠拢,让 A woman 的最终结果变成 A woman - woman = A’ woman . 使得训练集与 A 的关联更重,但并不是剥离出 A (并非是A woman - woman = A)。

2. BPP:在 中,虽然提及文本标注对于模型的Qwen3-4B文本模块的映射关系影响不多,可以保留空提示词。但这也意味着,保留空提示词时,模型的映射会更倾向于学习图片全部的细节而完全不加以区分。在训练人脸时,如果你的训练集质量足够(像素清晰,专业摄影级别),一致性好(不化妆,九宫格,面部特写,不模糊,不跨时间),你得到的LORA并不会对最终结果产生可观察的显著影响。但如果使用了低质量,低一致性的训练集,就会显著影响Zit的整体表现。

所以,在开启BPP时,训练过程中,权重的偏移会在向训练集合拟合X后,再向Zit回归 Y 乘以权重δ,最终得到的结果是 ∑ (X-δY)。而在这个过程中,数据集一致性不足的部分(如无关背景,无关物体,无关风格),通常会随着拟合的进行被抵消,或者减少影响。

关于δ,即 BPP loss multiplier 的值,默认是 1,在完全无提示词,且训练集足够标准(细节如上段描述)的情况下,是可以充分突显想要训练的内容的,尤其适用于画风的训练。
但有一种情况需要特殊注意。即当设置了【触发词-Trigger Word】的时候。因为这时,文本部分并非是无提示词,而是有一个触发词存在。那么,训练集的内容就会被训练归类到这个特定的文本的映射场中,已经实现了隔离。这时,如果仍想要开启BPP,则需要适当减少其δ的值。


五. 总结


整体上,Zit的训练是容易的,可塑性强的,在写实方向上有充足基础的。但也是有局限性的,如二次元,艺术原画等风格的固定化,狭窄泛化能力。
从模型的训练趋势来说,从升维增量 降维增效 是必然趋势。适用性,便携性在非专业需求的层面已经越发迫切,下游使用者要避免落入象牙塔陷阱
特征学习,因果训练,可能会对更多的领域产生足够的启发。对于此,我个人推荐看一看漫士沉思录和田渊栋的访谈【6】。


综上,希望对大家炼丹有所帮助。
PAseer 于 2025年12月10日



主题回复
倒序浏览

7795查看4回复

1

主题

25

回帖

52

修为

绘师

积分
144
血狼 6 天前
支持!!!!!!!!!!!!!
举报 回复

173

主题

36

回帖

5万

修为

创始合伙人

积分
107078
t8star 5 天前
很棒,但是DOP实测基本没效果

点评

反馈已收到。 估计是这种方式对蒸馏模型效果不佳。  详情 回复 发表于 5 天前
举报 回复

0

主题

58

回帖

99

修为

绘灵

积分
251
AI开创美好 5 天前
感谢分享
举报 回复

19

主题

20

回帖

256

修为

高级合伙人

积分
604
PAseer 5 天前
t8star 发表于 2025-12-12 02:03
很棒,但是DOP实测基本没效果

反馈已收到。
估计是这种方式对蒸馏模型效果不佳。
举报 回复
发新帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

© 2001-2025 BBS.Monster