字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

嘟先生 · 2025-11-12 00:00:00

字节跳动推出 Sa2VA，首个统一处理图像 / 视频的多模态模型，融合 SAM-2 的分割能力与 LLaVA 的语言理解，支持指称分割、对话等任务，单模型替代 Qwen2.5-VL+Sam2 插件组合，性能提升显著。

一、Sa2VA介绍
最近字节发布了将 SAM2 与 LLaVA 相结合，实现对图像和视频的密集型基础理解的模型Sa2VA。
Sa2VA 是首个统一的图像和视频密集型语言理解模型。与现有多模态大型语言模型通常局限于特定模态和任务不同，Sa2VA 支持广泛的图像和视频任务，包括指称分割和对话，且只需极少的单次指令调优。Sa2VA 结合了基础视频分割模型 SAM-2 和先进的视觉语言模型 LLaVA，并将文本、图像和视频统一到一个共享的 LLM 标记空间中。

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

简单的说就是这个识别技术加入了大模型，效果更好，以前我们要实现这种功能是分开的，分别用上Qwen2.5-VL + Sam2 这2个插件配合才行，现在直接一步到位，还是很香的。
项目地址：https://github.com/bytedance/Sa2VA
二、相关安装
目前ComfyUI有配套的插件支持，不过暂时就只支持图片，视频的我结合以前那个Sec来一起使用。
插件地址：https://github.com/adambarbato/ComfyUI-Sa2VA
这个插件也挺恶心，要求transformers >= 4.57.0，本地要安装的同学记得先备份python包。
下面是配套的模型存放路径
字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

模型我下载了一份丢网盘了

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

三、测评体验
工作流已发Runninghub，前往体验or下载：
Sa2VA最新图像遮罩提取技术：https://www.runninghub.cn/post/1 ... iteCode=kol01-rh024

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

上面是对应的工作流，先来介绍下核心节点吧，我做了图片遮罩提取以及视频遮罩提取。
核心节点就一个Sa2VA Segmentation，模型就默认选择4B的这个，剩下的默认就行
传入你要处理的图像，然后输入自然语言提示词就行

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

这里的提示词更智能更听话，就像我说的左侧第3个女人，系统就可以识别到，因为内部接入了Qwen3-VL的模型。
我们以前其实也有这块能力，不过用的是猪佬的 Qwen2.5-VL+SAM2的组合，现在就一个节点就搞定了还是很不错的。
工作流里面我给出了4种遮罩提取的组合搭配对比，大家都可以尝试看看，更详细的对比效果去B站看我视频教程。

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

可以看到，这种复杂的写法，也就支持Qwen-VL模型的才行，普通的遮罩提取就只支持简单的词汇。要么只提取一个，要么就全部提取了。

案例展示
左侧第3个女人

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合
女人

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合
老虎

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合
将叉子上的虾分割出来

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合
将图中比较大的猫咪分割出来

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

还是很听话的啊，真不错。
由于目前插件还不支持视频的处理，所以这里的视频我使用Sa2VA+Sec的组合方案
首帧图用Sa2VA提取遮罩
视频帧使用Sec搞定

这样的组合其实非常的酷，都带有思考过程的太帅了。

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

工作流不复杂，一看就懂，视频提取里面的首帧，然后先根据提示词提取出来里面的元素，然后遮罩图当做参数传入到Sec中。

注意事项
目前这个插件就支持图片的，视频的我用结合Sec方案搞定，本地安装有点坑，对依赖transformers版本要求比较高，其他效果还不错，大家可以现在RH上玩玩。
四、在线使用
云端镜像
大家如果没有本地 ComfyUI 环境，或者本地显卡配置低于 16G 的，可以使用嘟嘟部署的仙宫云镜像，可直接加载使用。后续分享的工作流都会更像到镜像中，一周更新一次，方便大学学习。
目前整合了2个镜像，一个是Flux绘图用的，另外一个是针对视频模型的，之所以分开是一些模型兼容问题，分开比较好处理。
镜像名称：嘟嘟AI绘画趣味学

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

云平台镜像地址：
https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY
https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY
新用户通过邀请码注册，总共可获得 8 元奖励，体验 4 个小时的 4090 作图时长。

字节Sa2VA：SAM2+LLaVA 合体，单模型搞定图像视频分割，性能碾压 Qwen2.5-VL 组合

浏览过的版块