|
大家好,我是嘟嘟,深耕ComfyUI赛道的程序员。
清华等机构 FlashVSR 视频超分模型来袭!主打实时流式,靠三阶段蒸馏等技术兼顾画质与速度,代码权重已公开,VSR-120K 大数据集将发布。 一、FlashVSR视频超分模型介绍最近,视频超分辨率领域又迎来了一个重磅项目 ——FlashVSR。它主打 “实时流式视频超分辨率”,基于扩散模型实现,既能保证画质,又能兼顾速度,堪称视频画质提升的 “黑科技”。今天就带大家全面了解这个项目,看看它到底有多强? 什么是 FlashVSR?
FlashVSR 全称 “Towards Real-Time Diffusion-Based Streaming Video Super-Resolution”,是由清华大学等机构的研究者开发的新型视频超分辨率模型。它的核心目标是解决传统扩散模型在视频超分中速度慢、难以适配实时流式场景的问题,让高画质视频超分从 “实验室” 走向 “实际应用”。 目前,项目已公开推理代码和模型权重,并即将发布包含 12 万段视频、18 万张图像的大规模数据集VSR-120K,方便开发者进一步研究和优化。 核心技术亮点
FlashVSR 能实现 “实时 + 高质量” 的突破,关键在于这几项核心技术: - 三阶段蒸馏 pipeline:专门为流式视频超分设计的训练流程,让模型在保持精度的同时大幅提升速度;
- 局部约束稀疏注意力(LCSA):减少冗余计算,解决训练与测试时的分辨率差异问题,这也是官方版本画质优于第三方实现的关键;
- 小型条件解码器:在保证重建质量的前提下,让推理更高效;
VSR-120K 数据集 :大规模视频 + 图像混合训练数据,让模型泛化能力更强。
二、相关安装这里用的还是KJ的Wan系列,模型需要用到3个
其中下面2个放在diffusion_models下面: - Wan2_1-T2V-1_3B_FlashVSR_fp32.safetensors
- Wan2_1_FlashVSR_LQ_proj_model_bf16.safetensors
而下面这个是vae模型放在vae目录下即可 - Wan2_1_FlashVSR_TCDecoder_fp32.safetensors
这3个新模型网盘里面会给大家提供:
三、测试体验工作流已发Runninghub,前往体验or下载:
工作流很简单,KJ的Wan系列基础采样 先看模型,上面提到的3个模型都要用上,另外搭配一个之前用的umt5就行。
然后是视频处理,加载你想要超分的视频,设置最大的分辨率就行了
这里用到一个新节点 WanVideo Add FlashVSR Input,这里这个权重越大越接近原视频色彩,默认1
最后就是采样了,这个超分速度快就在于此,它只要1步采样,嗖嗖的快。最后我接了个图像调色,如果你角色最终视频还有色差,就继续调整这个值,我默认写0.5
案例展示
我把168x300的4秒视频超分到720x1280,花了大概50秒,很强啊。 注意事项
这个超分模型本质还是重绘,多少会改变原来的一些细节,比较适合原本就比较模糊的视频,速度快,效果好。 如果是本身就足够清晰的,用这个当做高清放大也可以,但是细节会变化。 四、在线使用云端镜像
大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。 目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。 镜像名称:嘟嘟AI绘画趣味学
云平台镜像地址: https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY 新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长。
|