智谱开源GLM-ASR:动动嘴,活就干了
智谱正式发布并开源了GLM-ASR系列语音识别模型,并推出基于该系列模型打造的桌面端智谱AI输入法。
本次发布模型与产品包括: GLM-ASR-2512:全球领先的云端语音识别模型; GLM-ASR-Nano-2512:参数量仅1.5B的开源SOTA端侧语音模型; 智谱AI输入法:将语音识别与大模型深度融合的桌面端效率工具。
实现让用户真正做到“动动嘴,活就干了”,从“把话变成字”走向“直接用语音完成任务”。
GLM-ASR系列模型开源GLM-ASR-2512是智谱新一代语音识别模型,支持将语音实时转换为文字。在多场景、多语种、多口音的真实复杂环境测试中,保持行业领先的识别表现,字符错误率(CER)仅为0.0717。
在此基础上,研究团队开源了GLM-ASR-Nano-2512。这是一个1.5B参数的端侧模型,却取得了当前开源语音识别方向的SOTA表现,并在部分测试中优于若干闭源模型。它将识别能力压缩到本地运行,在保证高精度的同时,实现更强的隐私保护与更低的交互延迟。
智谱开源GLM-ASR:动动嘴,活就干了
基于上述模型能力,智谱AI输入法正式上线,让用户在PC端用语音丝滑交互。用户不但可以实现精准的语音转文字,还可以实现翻译、改写等智能操作,真正实现“指尖即模型,语音即指令”。
智谱AI输入法:在输入中直接调起模型能力
智谱AI输入法基于GLM-ASR系列模型打造,让用户在电脑端用语音丝滑交互。用户不仅可以实现精准的语音转文字,还可以在输入法中直接调用大模型能力,完成翻译、改写、情绪转化等操作,实现“指尖即模型,语音即指令”。
所选即所改,从听写到改写的一体化:传统输入法只负责打字,而智谱AI输入法直接调用底层GLM模型帮助用户翻译、扩写、精简屏幕上的任意一段文字,同时完成智能润色,让输出更加自然、通顺。整个过程在输入框内完成,实现“理解-执行-替换”一体化,无需在多个应用间反复切换。
千人千面人设切换:支持设置不同“人设”风格,实现同一句话在不同场景下的不同表达。例如,在工作场景中,选择“面对老板”,口语化的碎碎念瞬间转化为逻辑严谨、条理清晰的工作汇报;在生活场景中,切换至“面对伴侣”,文字则变得温柔俏皮,贴近日常聊天语境。
体验与下载现在,你可以在智谱开放平台bigmodel.cn调用最新GLM-ASR-2512模型。同时,为开源社区提供了1.5B的端侧模型GLM-ASR-Nano-2512,权重及推理代码均已发布。
即日起,智谱AI输入法面向所有用户开放,并免费提供2000积分,相当于28天使用时长。欢迎体验!
GLM-ASR-2512
体验中心: https://bigmodel.cn/trialcenter/modeltrial/voice接口文档: https://docs.bigmodel.cn/api-reference/模型-api/语音转文本
GLM-ASR-Nano-2512 https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512智谱AI输入法:
点击阅读原文,直达模型~
👇点击关注ModelScope公众号获取更多技术信息~
|