今日,智谱新模型开源发布—— GLM-4.6V 系列多模态大模型,共包含两款模型:
模型合集: https://www.modelscope.cn/collections/GLM-46V-37fabc27818446
作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
在性能优化之外,GLM-4.6V 系列相较于 GLM-4.5V 降价 50%,API 调用价格低至输入 1 元/百万 tokens,输出 3 元/百万 tokens。
智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务
01
原生多模态工具调用
传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。
GLM-4.6V 从设计之初就围绕 「图像即参数,结果即上下文」 ,构建了原生多模态工具调用能力:
模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。
02
典型场景
场景1:智能图文混排与内容创作在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。
这一流程中,多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。 ⬆️案例1:仅输入主题,生成图文资讯
⬆️案例2:输入论文,生成图文并茂的科普文章
场景2:视觉驱动的识图购物与导购 Agent在电商购物场景中,GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。
场景3:前端复刻与多轮视觉交互开发 研究团队重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力,帮助开发者缩短「设计稿到可运行页面」的链路:
通过 GLM Coding Plan 的视觉 MCP 协议,这一能力可以集成进现有 IDE、设计工具或内部工程平台,大幅提升前端迭代效率。
场景4:长上下文的文档与视频理解 GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至128k,模型拥有了“过目不忘”的长记忆力。在实际应用中,128k上下文约等于150页的复杂文档、200页PPT或一小时视频,能够在单次推理中处理多个长文档或长视频。
在下列案例中,用户一次输入 4 家上市公司的财报,GLM-4.6V 可以跨文档统一抽取核心指标,并理解报表与图表中的隐性信号,自动汇总成一张对比分析表,在长窗口条件下依然保持关键信息不丢失。
上述能力同样适用于长视频内容的理解与定位: 在长视频理解场景下,GLM-4.6V 既能对整段内容进行全局梳理,又能结合时序线索做细粒度推理,精准定位关键时间点,例如自动完成一场足球比赛的进球事件与比分时间轴总结。
03
同规模开源 SOTA
作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。
GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中 9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。 [img=10101,7371]https://mmbiz.qpic.cn/mmbiz_jpg/HytN6OfQHzW0eI5xMRL3WR8ng1SyVSdWMmcKic27hIOnG55RbwVnKjHyHywDSibhrfZxekXahBjNxCjwlMWBsZdQ/640?wx_fmt.jpeg[/img]
04
立即体验
模型推理使用transformers:from modelscope import AutoProcessor, Glm4vMoeForConditionalGenerationimport torchMODEL_PATH = "ZhipuAI/GLM-4.6V"messages = [ { "role": "user", "content": [ { "type": "image", "url": "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png" }, { "type": "text", "text": "describe this image" } ], }]processor = AutoProcessor.from_pretrained(MODEL_PATH)model = Glm4vMoeForConditionalGeneration.from_pretrained( pretrained_model_name_or_path=MODEL_PATH, torch_dtype="auto", device_map="auto",)inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt").to(model.device)inputs.pop("token_type_ids", None)generated_ids = model.generate(**inputs, max_new_tokens=8192)output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)print(output_text)
魔搭API-Inference魔搭社区第一时间上线适配了GLM-4.6V 模型的API,开发者可以通过魔搭的免费API-Inference来直观体验模型的效果,调用示例代码在模型页面右侧可见:
智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务
👇点击关注ModelScope公众号获取更多技术信息~
|