|
2026新年首个王炸!以色列Lightricks公司发布LTX 2.0,加冕开源视频新王。打破闭源垄断,实现单次运算同步生成动作、对话与音乐,音画完美同步!支持Canny/Pose控制及消费级显卡运行,开源视频界终于等来了完全体! 一、LTX2.0视频模型介绍
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
我靠,2026新年就给超级福利,开源视频模型新的王者诞生,就是我们以前熟悉但是都不用的LTX,这次这家以色列的Lightricks公司带着诚意满满的LTX2.0来了。 糊涂的Wan不开源2.5、2.6之后视频开源界进度就慢了,现在闭源模型都开始直出音画同步视频了,今天LTX2.0补上了这块短板。 LTX-2不仅能输出高质量视觉效果,还兼顾资源占用与运行速度的高效性。该模型可通过单次运算同步生成动作、对话、背景音与音乐,打造连贯的音视频体验。在开放透明的框架下,模型支持灵活定制,为开发者提供创作自由度与操控权 模型特点
该模型能呈现动态场景,还原自然的动作与表情,同时支持多输入模态,提供灵活操控,可在消费级硬件上高效运行。 - 开源音视频基础模型
- 同步生成动作、对话、音效与音乐
- 支持Canny、深度图、姿态图的视频转视频控制
- 关键帧驱动生成
- 原生超分与提示词优化
官方的一些案例效果真不错。 接下我也来带着大家一起测评玩玩,尝尝这份26年的重磅礼物! 二、相关安装ComfyUI官方也第一时间做了适配支持,把本体更新到最新的就行,不过坏消息是目前跑LTX2.0工作流,显存是超过24G的,所以本地的再等等,看看后续社区是否可以优化,先在RunningHub上体验。 有好显卡的可以先本地玩 - 将ComfyUI更新至最新开发版本(桌面端及 Comfy Cloud 即将支持)
- 进入模板库 -> 视频 -> 选择任意 LTX-2 工作流
- 按照弹窗提示下载模型,检查所有输入内容,即可运行工作流
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
模型地址:https://huggingface.co/Lightricks/LTX-2/tree/main
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
网盘也给大家提供了,自取
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
三、测评体验超好玩,推荐给你! 这次LTX准备的很充分呢,一共可以玩下面这些功能。 文生视频
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
文生视频的话整体流程符合LTX一贯的风格,先弄一个比较模糊的视频,然后再高清放大,有对应的lora搭配使用。 我们来看看工作流,首先是模型,大模型和vae集成在Checkpoint里面,文本编码是对应Gemma的,这个是支持中文能力的,所以我们可以写中文提示词,最后多了一个Audio音频的VAE模型。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
然后是初次采样
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
第一次其实做了缩放,缩小一倍先去跑视频
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
然后是二次采样,接入了放大的模型
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
二次放大后视频就会变得高清,效果挺不错的。 案例展示
这里我使用RH上48G显存来跑,跑了几个1920x1088的视频。 一辆怪兽卡车高速驶向镜头的动作片,卡车从镜头前经过,向左扫视,跟随卡车鲁莽的驾驶。尘埃和运动模糊环绕着卡车,手持镜头捕捉着它试图远离的感觉。卡车随后漂移并掉头,然后驶回摄像头,直到出现极近距离。
The camera begins with a slow, steady macro shot tracking a honeybee, its body glistening with golden fuzz and translucent wings catching subtle rays of sunlight as it hovers in mid-air. The environment is a sunlit meadow, bathed in the soft golden hues of late afternoon, with gentle beams filtering through swaying grass. The bee approaches a vibrant, dew-speckled flower, its petals a vivid explosion of crimson and gold. With a delicate hum of its wings, a soft, rhythmic buzz fills the air, blending seamlessly with the faint rustle of leaves in the breeze. The bee lands with precision, its tiny legs gripping the textured surface of the flower's center. A close-up reveals its delicate proboscis extending, dipping into the flower's core with a faint, wet "squelch" as nectar is drawn. The scene captures the intricate details of the bee's movements—the shimmer of pollen clinging to its legs, the subtle vibration of its wings as it adjusts its stance. The camera lingers, highlighting the tactile textures of both bee and flower, before gently pulling back to reveal the serene meadow once more. High-resolution textures, cinematic style, 8k, ultra-detailed macro photography.
3D皮克斯风格,内景。烤箱-白天。镜头固定,从烤箱内部拍摄,透过略带雾气的玻璃门向外望去。温暖的金光笼罩着刚出炉的饼干。烘焙师的脸占据了整个画面,他目光专注地睁大,呼吸在玻璃上凝成雾气,他俯身靠近。蒸汽升腾,在玻璃上投下微妙的光影。
贝克(低声戏剧性地说):“今天……我达到了完美。”
他凑得更近了,鼻子几乎贴到了玻璃上。
“金黄酥脆的边缘,柔软的内馅。就连神明闻到这些饼干的香味都会感动落泪。”
贝克:“等等——”
(顿了顿)
“我……是不是忘了放巧克力片?”
镜头切换到侧面——同事突然出现在画面中,漫不经心地咀嚼着。
同事(嘴里塞满了食物):“不对,你忘了放糖。”
镜头迅速拉回到面包师惊恐的脸上,他紧贴着烤箱门,饼干在玻璃后面塌陷。蒸汽缓缓升腾。
柔和的晨光透过淡白色的窗帘洒落,镜头缓缓扫过一间沐浴在金色晨曦中的舒适卧室。镜头定格在一位娇美的 20 岁亚洲女性身上,她的肌肤在黑色蕾丝睡裙的映衬下显得光彩照人,精致的花纹在光线中微微闪烁。她在米白色羽绒被的温暖包裹下动了动,缓缓坐起身,镜头随之拉近成中近景。随着布料轻轻的窸窣声,她将双臂举过头顶伸展,纤细的身影勾勒出优美的轮廓。突然,她的胸部微微但明显地隆起,蕾丝面料随着这一意外变化发出几乎难以察觉的轻微窸窣声。她那双杏仁眼惊讶地睁大,嘴唇微张,用清晰悦耳的普通话惊呼道:“哇,睡个觉就变大了,真好!” 她的声音在空气中回荡,与窗外远处鸟儿的鸣叫完美融合。场景以一个柔和的对焦结束,捕捉到她表情的每一个细微之处。超写实的质感,电影般的构图,8k 分辨率,细节丰富。
可惜,没变大,但是人物神情以及配音啥的都很不错 一个慢动作跟踪镜头捕捉到一片秋叶缓缓飘落的画面,叶片表面如精致的镶嵌画,呈现出绯红与琥珀色的交织,叶脉宛如细腻的书法笔迹。场景在傍晚的金色薄雾中展开,阳光透过渐渐凋零的树冠,将柔和的光束洒在清澈见底的森林小溪上。镜头切换到叶子本身的第一人称视角,展现出其带纹理的边缘微微卷曲,轻触水面时发出一声微弱的 “噗” 声。涟漪以同心圆的形式向外扩散,捕捉到的阳光闪烁如液态黄金。叶子开始顺流而下,其运动与溪流有节奏的汩汩声以及附近偶尔传来的树枝断裂的 “咔嚓” 声同步。镜头捕捉到了每一个细节 —— 附着在叶子背面的小气泡、溪底鹅卵石床的粼粼倒影,以及水流轻柔地拖拽和托举叶子的模样。周围的声景中,风穿过树林的低语和流水的舒缓呢喃逐渐增强,与这一幕的视觉诗意完美融合。超写实纹理、电影级构图、8k 分辨率、极致细节、沉浸式叙事。
大家觉得如何,烤箱那个案例我发现,生成的时候有概率会直接生成字幕,还是乱码的,这个估计是训练的素材里面就是有很多带字幕的导致的。 不过整体效果不错,音画同步还有配音,一个非常好的开始呢。 图生视频
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
图生视频目前测试起来效果不是非常的理想,不过带音效,整体还凑合。 入参这里,上传图像,设置时长、填写提示词就行。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
我弄了个提示词反推模板,大家可以拿去参考用,主要考虑到音效和配音这块,做了些处理。 # Role:
你是一位精通 LTX 2.0 物理特性的视频导演。你能通过分析图片和用户需求,生成一段逻辑严密、声画同步的 5 秒分镜提示词。
# Prompt Formulation Rules (核心公式):
将 主体(描述) + 场景(描述) + 运动(描述) + 镜头语言 + 氛围词 + 风格化 融入到 5 秒的连贯叙事中。
# Requirements:
连贯输出:保留“第 X 秒”的标记,但内容要像电影剧本一样衔接自然。
声画同步:在每秒动作中自然植入 [音效] 或 [旁白]。
字数限制:总字数控制在 500 字以内,简洁有力。
语言要求:中文输出,支持中文配音描述。
# Output Structure (严格按照此格式输出):
直接输出分镜内容,不要多余废话。
# 案例
场景设定:孤寂荒星上的宇航员与神秘发光植物。氛围风格:科幻、孤独、宏伟、写实画风。
第 1 秒:全景镜头下,一位身着磨损白色宇航服的探险者踏在暗紫色碎石荒原上,沉重的靴底踩碎干枯地表,发出 [音效:咔吱的碎石碎裂声],背景是低沉的 [音效:宇航员沉闷的呼吸声]。
第 2 秒:镜头平稳推进,主体缓慢俯身,金属面罩反射出前方奇异植物伸展枝叶的动态,伴随着 [音效:植物生长的细微沙沙声] 与幽暗的背景风声。
第 3 秒:特写宇航员戴着厚重手套的指尖触碰发光花蕊,瞬间迸发出微弱的粒子光点,[旁白:带有磁性的沧桑男声感叹“这片死地,竟然还有生命。”]。
第 4 秒:镜头上移转向人物侧脸,面罩后的眼神由震惊转为温柔,光影随植物的律动在他脸上起伏,[音效:心跳加速的微弱跳动声] 融入空灵的氛围音乐。
第 5 秒:广景拉远,主体在宏大的星空背景下与那抹微光定格,画面在极致的宁静中微微颤动,[音效:远方星际尘埃掠过的低频嗡鸣音] 缓缓收尾。
案例展示
我跑了2个图生视频的效果。 图生视频的效果相比较文生视频会弱一些,提示词这个模板我还要调试一下看看,但是配音啥的时也是可以根据提示词来指定的。 线稿参考和深度参考
这2个都是支持Controlent控制的,同样是两段采样,先来说说线稿。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
线稿入参的话,同样是传入视频、设置总帧数、宽高。 然后关键的是提取下这个线稿图,作为后期传入使用。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
然后Latent这边的设置,把前面的Canny线条图传入到LTXVAddGuide这个关键节点里面即可。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
模型这边,线稿的话多一个canny的lora模型,剩下的和文生视频按边类似。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
深度的话,差不多,区别在提取深度图的时候,这里用的是采样的方式
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
模型这边,要记得加载depth的lora模型。
我靠!2026 开年王炸!LTX 2.0 登基开源新王,音画同步直接生成!
案例展示
深度和线稿这2个,我就跑了2个视频看了下效果,效果不是非常好,有待提升。 注意事项
官方提示词使用手册:https://ltx.io/model/model-blog/prompting-guide-for-ltx-2 目前测试下来,文生视频效果最好,大家可以多玩玩。 其他几种模式暂时效果没那么理想,并且显存占用比较高,需要后续等社区再优化。 不过这算是开源里面首个支持音画同步的视频模型,非常给力!
|