11

主题

0

回帖

57

修为

高级合伙人

modelscope.cn 官方

积分
77

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

在AI绘画领域,模型的理解力与表现力一直是研发的核心,效果好的模型参数大,参数小的模型效果差一直是困扰二次元AI模型爱好者的难题。在文生图领域,基于Transformer的DiT架构正逐渐成为主流。

近日,社区开源模型研究团队NewBieAI-Lab公开了其首个实验性文生图模型——NewBie image Exp0.1,一个专为二次元而生的3.5B 参数 Next-DiT 底模。除了扎实的底座设计,该模型在文本编码器组合与提示词(Prompt)结构化方面也进行了新的尝试,不仅支持自然语言输入,还引入了XML结构化Prompt以提升多角色场景的生成可控性,做到复杂提示理解、多人角色特征和指定动作不乱、16chvae色彩材质天花板,lora易炼,20 步出图,8G显存入门,4060 随便跑,再配合扎实的算力加持下的知识量,有望成为对高效二次元文生图新范式的一大探索。

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

01
硬核配置一表呈现
项目
配置信息
亮点
参数量
3.5B
显存友好,3090 可 2K 实时出图
架构
Next-DiT + NewBie 深度优化
收敛更快、细节更炸
文本编码器
Gemma-3-4B-it + Jina CLIP v2 双编码器
复杂长提示、XML 结构化提示完美理解
VAE
FLUX.1-dev 16 通道
皮肤、布料、金属质感都大大提高
训练数据
千万级动漫数据 + XML 结构化标注
角色属性解耦、多人场景稳如老狗
推理速度
28~32 步(res_multistep/seed2)
比8B+ 模型快40%+
协议
Apache-2.0 & newbie-nc-1.0
完全免费,权重可用于非商业用途

02
技术架构一图看懂

下面这张图就是项目的完整架构图,NewBie image Exp0.1并未止步于单一的技术路径,而是整合了当前社区中表现优异的多个组件,以提升生成的语义理解能力和画面质感。

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

  • 文本编码器(Text Encoder)
    Gemma3 与 Jina CLIP 的强强联手 为了实现更强的提示词理解和指令遵循能力,该模型采用了 Gemma3-4B-it 作为主要的文本编码器。模型利用了Gemma3倒数第二层的token embedding作为条件输入。同时,模型还引入了Jina CLIP v2 提取池化文本特征(pooled text features),并通过投影融合到模型的时间步/AdaLN条件通路中。这种组合策略使得模型能够更精准地捕捉复杂的文本描述。
  • 图像潜在空间(VAE)
    引入 FLUX.1-dev 16通道 VAE 在图像解码端,NewBie image Exp0.1 选择了 FLUX.1-dev 的 16通道 VAE。这一选择显著提升了生成图像的视觉质量,使其具备更丰富的色彩渲染能力和更细腻的纹理细节,有助于在生成高质量动漫图像时保持画面的平滑与精致。
  • 训练数据与微调策略
    该模型在大规模的高质量动漫数据语料库上进行了预训练,使其能够生成细节丰富且视觉效果出众的动漫风格图像。值得注意的是,研究团队在实验中对数据集的文本进行了格式化重构,采用了 XML结构化格式。经验证,这种处理方式不仅加快了模型的收敛速度,还有效提升了属性(Attribute)与元素(Element)的解耦能力。同时,相较传统的Dit模型,这种策略也提高了LoRa的训练速度,对爱好者更友好。
  • 特色功能:XML结构化Prompt带来的精确控制
    在多角色生成的场景中,传统的自然语言Prompt往往容易出现“属性串扰”(例如角色A的衣服穿到了角色B身上)的问题。NewBie image Exp0.1 提出了一种解决方案:支持 XML 结构化 Prompt。虽然模型依然支持传统的自然语言和标签(Tags)输入,但在处理复杂的多角色场景时,使用 XML 结构通常能带来更准确的生成结果。


通过如下的结构化定义,用户可以清晰地指定每个角色的外观、衣着、动作及其在画面中的位置,这种设计极大地增强了模型对复杂场景的注意力绑定(Attention Binding)能力,实现了对画面元素的精细控制:

{
  "character_1": {
    "tags": "......center_left"
  },
  "character_2": {
    "tags": "......center_right"
  }
}

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

XML 结构化提示 vs 普通提示,差距有多大?
提示方式
角色区分
服装准确
位置控制
指定背景
指定动作
普通自然语言
★★★☆☆
★★★☆☆
★☆☆☆☆
★★★☆☆
★★☆☆☆
XML 结构化提示
★★★★★
★★★★★
★★★★★
★★★★★
★★★★★
SDXL tag format
★★☆☆☆
★★☆☆☆
★☆☆☆☆
★★☆☆☆
★☆☆☆☆

一键下载
  • ComfyUI 一键节点(拖进来即用):
https://github.com/NewBieAI-Lab/ComfyUI-Newbie-V0.1



    • 必装依赖(全开源):
模型
下载地址
Gemma-3-4B-it
https://www.modelscope.cn/models/LLM-Research/gemma-3-4b-it
Jina CLIP v2
https://www.modelscope.cn/models/jinaai/jina-clip-v2
FLUX.1-dev VAE
https://www.modelscope.cn/models/black-forest-labs/FLUX.1-dev/tree/master/vae

03
模型特点

3.30秒省流环节,总结Newbie模型的四大特点:
  • 双文本编码器霸榜级理解力 Gemma-3-4B-it 提供超强语言理解 + Jina CLIP v2 提供视觉语义对齐,双剑合璧,哪怕你扔过去 500 字的 XML 复杂提示,也能精准解析每个角色、每件衣服、每个动作,同时,也保留了传统的tag format prompt使用形式,新人也能快速上手。
  • Refiner 阶段,先去噪再理文本 先用 Noise Refiner 快速清理图像噪声,再用 Context Refiner 专门强化文本-图像对齐,彻底解决传统 DiT“细节糊了但提示没听懂”的痛点。
  • 36 层 Joint Transformer 主干 + 3D RoPE 图像和文本 token 彻底打通训练,配合 3D RoPE 位置编码,多人场景位置控制精确到像素级,再也不怕左右角色串脸,而且训练速度也合适,LoRa可以做到10ep出丹。
  • FLUX VAE 最终上色 16 通道 VAE 解码,色彩顺滑、材质真实,头发渐变、皮肤反光、布料褶皱直接起飞。


so,二次元创作者们,冲就完了!

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

动漫党福音!3.5B 参数全新开源ACG底模来了:NewBie-image-Exp0.1

点击阅读原文, 跳转模型详情~




👇点击关注ModelScope公众号获取更多技术信息~


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

© 2001-2025 BBS.Monster