智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

魔搭社区 · 2025-12-17 15:44:09

今日，智谱新模型开源发布—— GLM-4.6V 系列多模态大模型，共包含两款模型：

GLM-4.6V（106B-A12B）：面向云端与高性能集群场景的基础版

GLM-4.6V-Flash（9B）：面向本地部署与低延迟应用的轻量版。

模型合集：

https://www.modelscope.cn/collections/GLM-46V-37fabc27818446

作为 GLM 系列在多模态方向上的一次重要迭代，GLM-4.6V 将训练时上下文窗口提升到 128k tokens，在视觉理解精度上达到同参数规模 SOTA，并首次在模型架构中将 Function Call（工具调用）能力原生融入视觉模型，打通从「视觉感知」到「可执行行动（Action）」的链路，为真实业务场景中的多模态 Agent 提供统一的技术底座。

在性能优化之外，GLM-4.6V 系列相较于 GLM-4.5V 降价 50%，API 调用价格低至输入 1 元/百万 tokens，输出 3 元/百万 tokens。

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

01
原生多模态工具调用

传统工具调用大多基于纯文本，在面对图像、视频、复杂文档等多模态内容时，需要多次中间转换，带来信息损失和工程复杂度。

GLM-4.6V 从设计之初就围绕 「图像即参数，结果即上下文」 ，构建了原生多模态工具调用能力：

输入多模态：图像、截图、文档页面等可以直接作为工具参数，无需先转为文字描述再解析，减少链路损耗。

输出多模态：对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果，模型能够再次进行视觉理解，将其纳入后续推理链路。

模型原生支持基于视觉输入的工具调用，完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。

02
典型场景

场景1：智能图文混排与内容创作

在内容创作与知识分发场景中，GLM-4.6V 可以从多模态输入中，自动构建高质量图文输出：无论是直接输入图文混杂的论文、研报、PPT，还是只给出一个主题，模型都能生成结构清晰、图文并茂的社交媒体内容。

复杂图文理解：接收包含文本、图表、公式的文档，准确抽取结构化关键信息。

多模态工具调用：在生成内容过程中，自动调用检索/搜索类工具，为每一段落寻找候选图片，或从原文中截取关键配图。

图文混排输出与质量控制：对候选图片进行「视觉审核」，评估其与文字内容的相关性与质量，自动过滤无关或低质图片，输出可直接用于公众号、社交媒体或知识库的结构化图文结果。

这一流程中，多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。

⬆️案例1：仅输入主题，生成图文资讯

⬆️案例2：输入论文，生成图文并茂的科普文章

场景2：视觉驱动的识图购物与导购 Agent

在电商购物场景中，GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。

意图识别与任务规划：用户上传一张街拍图并发出「搜同款」等指令时，模型识别出购物意图，并自主规划调用 image_search 等相关工具。

异构数据清洗与对齐：在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上，模型自动完成信息清洗、字段归一化与结果对齐，过滤噪声和重复项。

多模态导购结果生成：最终生成一张标准化 Markdown 导购表格，包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明，以及可直接跳转的购买链接。

场景3：前端复刻与多轮视觉交互开发

研究团队重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力，帮助开发者缩短「设计稿到可运行页面」的链路：

像素级前端复刻：上传网页截图或设计稿后，模型可精准识别布局、组件与配色，生成高质量 HTML / CSS / JS 代码，实现接近像素级的页面还原。

视觉交互调试：支持基于截图的多轮视觉交互。用户可以在生成的网页截图上圈选区域并发出自然语言指令（如「把这个按钮向左移一点，颜色改成深蓝」），模型自动定位并修正对应代码片段。

通过 GLM Coding Plan 的视觉 MCP 协议，这一能力可以集成进现有 IDE、设计工具或内部工程平台，大幅提升前端迭代效率。

场景4：长上下文的文档与视频理解

GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至128k，模型拥有了“过目不忘”的长记忆力。在实际应用中，128k上下文约等于150页的复杂文档、200页PPT或一小时视频，能够在单次推理中处理多个长文档或长视频。

在下列案例中，用户一次输入 4 家上市公司的财报，GLM-4.6V 可以跨文档统一抽取核心指标，并理解报表与图表中的隐性信号，自动汇总成一张对比分析表，在长窗口条件下依然保持关键信息不丢失。

上述能力同样适用于长视频内容的理解与定位：

在长视频理解场景下，GLM-4.6V 既能对整段内容进行全局梳理，又能结合时序线索做细粒度推理，精准定位关键时间点，例如自动完成一场足球比赛的进球事件与比分时间轴总结。

03
同规模开源 SOTA

作为 GLM 系列在多模态方向上的一次重要迭代，GLM-4.6V 将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模 SOTA，并首次在模型架构中将 Function Call（工具调用）能力原生融入视觉模型，打通从「视觉感知」到「可执行行动（Action）」的链路，为真实业务场景中的多模态 Agent 提供统一的技术底座。

GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证，较上一代模型取得显著提升。在同等参数规模下，模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中 9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B，106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。

[img=10101,7371]https://mmbiz.qpic.cn/mmbiz_jpg/HytN6OfQHzW0eI5xMRL3WR8ng1SyVSdWMmcKic27hIOnG55RbwVnKjHyHywDSibhrfZxekXahBjNxCjwlMWBsZdQ/640?wx_fmt.jpeg[/img]
04
立即体验
模型推理使用transformers：

from modelscope import AutoProcessor, Glm4vMoeForConditionalGenerationimport torchMODEL_PATH = "ZhipuAI/GLM-4.6V"messages = [ { "role": "user", "content": [ { "type": "image", "url": "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png" }, { "type": "text", "text": "describe this image" } ], }]processor = AutoProcessor.from_pretrained(MODEL_PATH)model = Glm4vMoeForConditionalGeneration.from_pretrained( pretrained_model_name_or_path=MODEL_PATH, torch_dtype="auto", device_map="auto",)inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt").to(model.device)inputs.pop("token_type_ids", None)generated_ids = model.generate(**inputs, max_new_tokens=8192)output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)print(output_text)
魔搭API-Inference

魔搭社区第一时间上线适配了GLM-4.6V 模型的API，开发者可以通过魔搭的免费API-Inference来直观体验模型的效果，调用示例代码在模型页面右侧可见：

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

👇点击关注ModelScope公众号获取更多技术信息~

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

浏览过的版块