动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1

魔搭社区 · 2025-12-17 15:39:09

在AI绘画领域，模型的理解力与表现力一直是研发的核心，效果好的模型参数大，参数小的模型效果差一直是困扰二次元AI模型爱好者的难题。在文生图领域，基于Transformer的DiT架构正逐渐成为主流。

近日，社区开源模型研究团队NewBieAI-Lab公开了其首个实验性文生图模型——NewBie image Exp0.1，一个专为二次元而生的3.5B 参数 Next-DiT 底模。除了扎实的底座设计，该模型在文本编码器组合与提示词（Prompt）结构化方面也进行了新的尝试，不仅支持自然语言输入，还引入了XML结构化Prompt以提升多角色场景的生成可控性，做到复杂提示理解、多人角色特征和指定动作不乱、16chvae色彩材质天花板，lora易炼，20 步出图，8G显存入门，4060 随便跑，再配合扎实的算力加持下的知识量，有望成为对高效二次元文生图新范式的一大探索。

动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1

01
硬核配置一表呈现

项目	配置信息	亮点
参数量	3.5B	显存友好，3090 可 2K 实时出图
架构	Next-DiT + NewBie 深度优化	收敛更快、细节更炸
文本编码器	Gemma-3-4B-it + Jina CLIP v2 双编码器	复杂长提示、XML 结构化提示完美理解
VAE	FLUX.1-dev 16 通道	皮肤、布料、金属质感都大大提高
训练数据	千万级动漫数据 + XML 结构化标注	角色属性解耦、多人场景稳如老狗
推理速度	28~32 步（res_multistep/seed2）	比8B+ 模型快40%+
协议	Apache-2.0 & newbie-nc-1.0	完全免费，权重可用于非商业用途

02
技术架构一图看懂

下面这张图就是项目的完整架构图，NewBie image Exp0.1并未止步于单一的技术路径，而是整合了当前社区中表现优异的多个组件，以提升生成的语义理解能力和画面质感。

动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1

文本编码器（Text Encoder）
Gemma3 与 Jina CLIP 的强强联手为了实现更强的提示词理解和指令遵循能力，该模型采用了 Gemma3-4B-it 作为主要的文本编码器。模型利用了Gemma3倒数第二层的token embedding作为条件输入。同时，模型还引入了Jina CLIP v2 提取池化文本特征（pooled text features），并通过投影融合到模型的时间步/AdaLN条件通路中。这种组合策略使得模型能够更精准地捕捉复杂的文本描述。
图像潜在空间（VAE）
引入 FLUX.1-dev 16通道 VAE 在图像解码端，NewBie image Exp0.1 选择了 FLUX.1-dev 的 16通道 VAE。这一选择显著提升了生成图像的视觉质量，使其具备更丰富的色彩渲染能力和更细腻的纹理细节，有助于在生成高质量动漫图像时保持画面的平滑与精致。
训练数据与微调策略
该模型在大规模的高质量动漫数据语料库上进行了预训练，使其能够生成细节丰富且视觉效果出众的动漫风格图像。值得注意的是，研究团队在实验中对数据集的文本进行了格式化重构，采用了 XML结构化格式。经验证，这种处理方式不仅加快了模型的收敛速度，还有效提升了属性（Attribute）与元素（Element）的解耦能力。同时，相较传统的Dit模型，这种策略也提高了LoRa的训练速度，对爱好者更友好。
特色功能：XML结构化Prompt带来的精确控制
在多角色生成的场景中，传统的自然语言Prompt往往容易出现“属性串扰”（例如角色A的衣服穿到了角色B身上）的问题。NewBie image Exp0.1 提出了一种解决方案：支持 XML 结构化 Prompt。虽然模型依然支持传统的自然语言和标签（Tags）输入，但在处理复杂的多角色场景时，使用 XML 结构通常能带来更准确的生成结果。

通过如下的结构化定义，用户可以清晰地指定每个角色的外观、衣着、动作及其在画面中的位置，这种设计极大地增强了模型对复杂场景的注意力绑定（Attention Binding）能力，实现了对画面元素的精细控制：

{

"character_1": {

"tags": "......center_left"

},

"character_2": {

"tags": "......center_right"

}

动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1

XML 结构化提示 vs 普通提示，差距有多大？

提示方式	角色区分	服装准确	位置控制	指定背景	指定动作
普通自然语言	★★★☆☆	★★★☆☆	★☆☆☆☆	★★★☆☆	★★☆☆☆
XML 结构化提示	★★★★★	★★★★★	★★★★★	★★★★★	★★★★★
SDXL tag format	★★☆☆☆	★★☆☆☆	★☆☆☆☆	★★☆☆☆	★☆☆☆☆

一键下载

模型：

https://www.modelscope.cn/models/NewBieAi-lab/NewBie-image-Exp0.1

ComfyUI 一键节点（拖进来即用）：

https://github.com/NewBieAI-Lab/ComfyUI-Newbie-V0.1

必装依赖（全开源）：

模型	下载地址
Gemma-3-4B-it	https://www.modelscope.cn/models/LLM-Research/gemma-3-4b-it
Jina CLIP v2	https://www.modelscope.cn/models/jinaai/jina-clip-v2
FLUX.1-dev VAE	https://www.modelscope.cn/models/black-forest-labs/FLUX.1-dev/tree/master/vae

03
模型特点

3.30秒省流环节，总结Newbie模型的四大特点：

双文本编码器霸榜级理解力 Gemma-3-4B-it 提供超强语言理解 + Jina CLIP v2 提供视觉语义对齐，双剑合璧，哪怕你扔过去 500 字的 XML 复杂提示，也能精准解析每个角色、每件衣服、每个动作，同时，也保留了传统的tag format prompt使用形式，新人也能快速上手。
Refiner 阶段，先去噪再理文本 先用 Noise Refiner 快速清理图像噪声，再用 Context Refiner 专门强化文本-图像对齐，彻底解决传统 DiT“细节糊了但提示没听懂”的痛点。
36 层 Joint Transformer 主干 + 3D RoPE 图像和文本 token 彻底打通训练，配合 3D RoPE 位置编码，多人场景位置控制精确到像素级，再也不怕左右角色串脸，而且训练速度也合适，LoRa可以做到10ep出丹。
FLUX VAE 最终上色 16 通道 VAE 解码，色彩顺滑、材质真实，头发渐变、皮肤反光、布料褶皱直接起飞。

so，二次元创作者们，冲就完了！

动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1

点击阅读原文，跳转模型详情~

👇点击关注ModelScope公众号获取更多技术信息~

zhouxinhong8888 · 2025-12-19 19:31:41

谢谢分享

动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1(1)

zhouxinhong8888 · 2025-12-19 19:32:12

谢谢分享

动漫党福音！3.5B 参数全新开源ACG底模来了：NewBie-image-Exp0.1

浏览过的版块