|
|
https://github.com/bytedance/mammothmoda
MammothModa2 是一个针对全面多模态理解和生成的统一自回归-扩散(AR-Diffusion)框架。该模型采用了一种新颖的串联架构:AR 主干使用 MammothTok——一个统一、语言对齐的视觉分词器——来执行复杂的语义规划,然后对高保真扩散解码器进行条件化。我们的核心技术贡献是统一的联合训练策略,在串联 AR-Diffusion 系统中同时优化离散的下一个标记预测(NTP)损失和连续的流匹配损失。这种规划和生成空间之间的端到端对齐使得 MammothModa 能够在复杂的文本到图像生成、编辑和视觉理解基准测试中实现有竞争力的性能。
|
|