|
字节跳动推出 Sa2VA,首个统一处理图像 / 视频的多模态模型,融合 SAM-2 的分割能力与 LLaVA 的语言理解,支持指称分割、对话等任务,单模型替代 Qwen2.5-VL+Sam2 插件组合,性能提升显著。 一、Sa2VA介绍最近字节发布了将 SAM2 与 LLaVA 相结合,实现对图像和视频的密集型基础理解的模型Sa2VA。 Sa2VA 是首个统一的图像和视频密集型语言理解模型。与现有多模态大型语言模型通常局限于特定模态和任务不同,Sa2VA 支持广泛的图像和视频任务,包括指称分割和对话,且只需极少的单次指令调优。Sa2VA 结合了基础视频分割模型 SAM-2 和先进的视觉语言模型 LLaVA,并将文本、图像和视频统一到一个共享的 LLM 标记空间中。
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
简单的说就是这个识别技术加入了大模型,效果更好,以前我们要实现这种功能是分开的,分别用上Qwen2.5-VL + Sam2 这2个插件配合才行,现在直接一步到位,还是很香的。 项目地址:https://github.com/bytedance/Sa2VA 二、相关安装目前ComfyUI有配套的插件支持,不过暂时就只支持图片,视频的我结合以前那个Sec来一起使用。 插件地址:https://github.com/adambarbato/ComfyUI-Sa2VA 这个插件也挺恶心,要求transformers >= 4.57.0,本地要安装的同学记得先备份python包。 下面是配套的模型存放路径
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
模型我下载了一份丢网盘了
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
三、测评体验工作流已发Runninghub,前往体验or下载:
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
上面是对应的工作流,先来介绍下核心节点吧,我做了图片遮罩提取以及视频遮罩提取。 核心节点就一个Sa2VA Segmentation,模型就默认选择4B的这个,剩下的默认就行 传入你要处理的图像,然后输入自然语言提示词就行
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
这里的提示词更智能更听话,就像我说的左侧第3个女人,系统就可以识别到,因为内部接入了Qwen3-VL的模型。 我们以前其实也有这块能力,不过用的是猪佬的 Qwen2.5-VL+SAM2的组合,现在就一个节点就搞定了还是很不错的。 工作流里面我给出了4种遮罩提取的组合搭配对比,大家都可以尝试看看,更详细的对比效果去B站看我视频教程。
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
可以看到,这种复杂的写法,也就支持Qwen-VL模型的才行,普通的遮罩提取就只支持简单的词汇。要么只提取一个,要么就全部提取了。 案例展示 左侧第3个女人
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
女人
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
老虎
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
将叉子上的虾分割出来
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
将图中比较大的猫咪分割出来
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
还是很听话的啊,真不错。 由于目前插件还不支持视频的处理,所以这里的视频我使用Sa2VA+Sec的组合方案 这样的组合其实非常的酷,都带有思考过程的太帅了。
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
工作流不复杂,一看就懂,视频提取里面的首帧,然后先根据提示词提取出来里面的元素,然后遮罩图当做参数传入到Sec中。 注意事项
目前这个插件就支持图片的,视频的我用结合Sec方案搞定,本地安装有点坑,对依赖transformers版本要求比较高,其他效果还不错,大家可以现在RH上玩玩。 四、在线使用云端镜像
大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。 目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。 镜像名称:嘟嘟AI绘画趣味学
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
字节Sa2VA:SAM2+LLaVA 合体,单模型搞定图像视频分割,性能碾压 Qwen2.5-VL 组合
云平台镜像地址: https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY 新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长。
|