17

主题

2

回帖

199

贡献

高级合伙人

积分
2822
colour 2025-10-14 09:15:04 | 显示全部楼层 | 阅读模式
https://github.com/bytedance/mammothmoda
MammothModa2 是一个针对全面多模态理解和生成的统一自回归-扩散(AR-Diffusion)框架。该模型采用了一种新颖的串联架构:AR 主干使用 MammothTok——一个统一、语言对齐的视觉分词器——来执行复杂的语义规划,然后对高保真扩散解码器进行条件化。我们的核心技术贡献是统一的联合训练策略,在串联 AR-Diffusion 系统中同时优化离散的下一个标记预测(NTP)损失和连续的流匹配损失。这种规划和生成空间之间的端到端对齐使得 MammothModa 能够在复杂的文本到图像生成、编辑和视觉理解基准测试中实现有竞争力的性能。
MammothModa2:联合优化的自回归-扩散模型,用于统一的多模态理解和生成(1)
                               
登录/注册后可看大图
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则