转自 通义大模型
只需3秒录音,就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒......9 种通用语言、18种方言,通通搞定! 一段嘈杂环境下的会议录音,AI 也能毫秒级输出文字,绕口令、RAP、背景音乐干扰,照样精准识别! 通义百聆再升级!本次发布包括:
1、Fun-CosyVoice3 模型升级:首包延迟降低 50%,中英混字准确率翻倍,支持 9 语种 18 方言口音、跨语种克隆与情感控制;
2、Fun-CosyVoice3(0.5B)正式开源:提供 zero-shot 音色克隆能力,支持本地部署与二次开发;
3、Fun-ASR 模型能力增强:噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到 160ms。
4、Fun-ASR-Nano(0.8B)开源:Fun-ASR 的轻量化版本,推理成本更低,模型开源,支持本地部署与定制化微调。
通义百聆语音双子星,同步开源!
模型能力全面升级 在9月份发布的CosyVoice3 版本,展示了模型如何通过 3 秒音频,实现跨语言、多情感、多方言的高保真音色复刻。本次,Fun-CosyVoice3 大模型完成多项关键升级: 首包延迟降低 50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时场景; 中英混说词错误率(WER)相比之前降低 56.4%,不论是含专业术语、大小写混排,还是语码转换的句子,都能精准、自然地发音; 在 zero-shot TTS 评测中,内容一致性与音色相似度全面提升,复杂场景(test-hard)字符错误率(CER)相对降低 26%,接近人类录音水平; 9 种通用语言、18 种中文方言、9 种情感控制,并具备跨语种音色复刻能力——用一段普通话录音,即可生成粤语、日语、英语等语音,音色保持高度一致。
🌈 案例展示1:中英混说,精准发音 Fun-CosyVoice3合成:上面的oversize的衣服就不要选择这么大,你可以稍微再缩小一点点版型。 🌈 案例展示2:跨语种音色复刻能力 🌈 案例展示3:韵律提升,音色复刻 🌈 案例展示4:不同语境下,多音字也能精准合成 Fun-CosyVoice3合成:他把数据输入电脑,开始数数。
模型体验地址 阿里云百炼 https://bailian.console.aliyun.com/?spm=5176.29597918.J_vaX5qcVH_w8TByFwAgQKi.6.15eb7b08JQobki&tab=model#/efm/model_experience_center/voice?currentTab=voiceTts
Fun-CosyVoice3-0.5B 正式开源 除了 Fun-CosyVoice3 在模型能力上的全面升级,我们还同步开源了Fun-CosyVoice3-0.5B,该版本提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。 在zero-shot 语音合成评测中,Fun-CosyVoice3-0.5B 表现优秀,在各个指标上优于主流TTS模型:
通义百聆语音双子星,同步开源!
开源地址 魔搭、HuggingFace、GitHub https://github.com/FunAudioLLM/CosyVoice(GitHub)
https://funaudiollm.github.io/cosyvoice3/(GitHub.io)
https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验demo)
https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)
https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)
通义百聆语音双子星,同步开源!
模型能力全面升级 如果 CosyVoice3 让 AI “会说话”,那 Fun-ASR 就是让 AI “听得懂”。 作为通义百聆推出的端到端语音识别大模型,Fun-ASR 基于数千万小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。本次,我们对 Fun-ASR 的核心能力进行了全面升级,重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字降低到 160ms。
通义百聆语音双子星,同步开源!
在远场拾音或高噪声环境(如会议室、地铁、车载)中,Fun-ASR 的识别准确率可达到 93%。新增对歌曲与说唱的识别能力,优化音乐背景噪声干扰下的语音识别能力,提高模型的抗噪能力。 🌈 案例展示5:嘈杂环境语音识别——室外环境 Fun-ASR 识别:然后被冠以了渣男线的称号,好了,不管这个,那么前方即将到达沈杜公路站,左边是8号线。 Fun-ASR 全面支持 31 种语言的自由混说,无需预先指定语种,系统可自动切换识别,重点优化了日语、越南语等东亚与东南亚语种,并能准确处理语种混说类句子。在中文方面,模型覆盖 7 大方言(粤语、吴语、闽南语、客家话、赣语、湘语、晋语)与 26 种地方口音,从东北话到港台腔,从四川话到河南腔,都能精准识别。
🌈 案例展示6:多语言语音识别--日语+英语 Fun-ASR 识别:このカフェのwi-fiがアン ステーブル 過ぎて、google meetでディスコネクトされて クライエントに悪い印象を与えてしまった。
🌈 案例展示7:方言与口音覆盖--粤语 Fun-ASR 识别:佢最想要有露台,佢想感受那个国家嘅生气,以佢280000呢个预算有少少难度,佢可能要做少少妥协不过我会尽力帮佢揾到佢想要嘅单位。 针对企业级定制需求,Fun-ASR 引入了 RAG(检索增强生成)机制,将定制热词上限从 1000 条提升至 10000 条,且不牺牲通用识别准确率。这意味着金融、医疗、教育等领域的专业术语、品牌名、人名,均可被高召回、高精度识别,满足工业级落地要求。
模型体验地址 阿里云百炼 https://bailian.console.aliyun.com/?spm=5176.29597918.J_vaX5qcVH_w8TByFwAgQKi.6.15eb7b08JQobki&tab=model#/efm/model_experience_center/voice?currentTab=voiceAsr
Fun-ASR-Nano-0.8B 正式开源 此外,我们全新推出轻量化版本 Fun-ASR-Nano 模型,总参数量压缩到 0.8B,推理成本更低,现已开源,欢迎体验!
开源地址 魔搭、HuggingFace、GitHub https://github.com/FunAudioLLM/Fun-ASR(GitHub)
https://funaudiollm.github.io/funasr/(GitHub.io)
https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验demo)
https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验demo)
https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)
https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库) 💬 互动
在模型使用过程中遇到了哪些问题?有什么优化建议?或者希望未来增加哪些功能?欢迎评论区反馈,优质建议将有机会获得通义定制咖啡杯(长期有效)!如果你希望深度交流,也欢迎扫码进入钉钉群~
通义百聆语音双子星,同步开源!
👇点击关注ModelScope公众号获取更多技术信息~
|