MammothModa2：联合优化的自回归-扩散模型，用于统一的多模态理解和生成

colour · 2025-10-14 09:15:04

https://github.com/bytedance/mammothmoda
MammothModa2 是一个针对全面多模态理解和生成的统一自回归-扩散（AR-Diffusion）框架。该模型采用了一种新颖的串联架构：AR 主干使用 MammothTok——一个统一、语言对齐的视觉分词器——来执行复杂的语义规划，然后对高保真扩散解码器进行条件化。我们的核心技术贡献是统一的联合训练策略，在串联 AR-Diffusion 系统中同时优化离散的下一个标记预测（NTP）损失和连续的流匹配损失。这种规划和生成空间之间的端到端对齐使得 MammothModa 能够在复杂的文本到图像生成、编辑和视觉理解基准测试中实现有竞争力的性能。

MammothModa2：联合优化的自回归-扩散模型，用于统一的多模态理解和生成(1)

登录/注册后可看大图