通义百聆“语音双子星”同步开源：3秒“复刻声音”，嘈杂环境也能“听清”-AI前沿快讯-AI工具导航

通义百聆“语音双子星”同步开源：3秒“复刻声音”，嘈杂环境也能“听清”

前沿资讯 1765792043更新

导读：通义百聆一次性升级了语音“说”和“听”两大能力，Fun-CosyVoice3 与 Fun-ASR 同步增强并开源；3秒音频即可跨语种、跨方言复刻音色，嘈杂环境下语音识别准确率提升至93%，多语言、方言与企业定制能力全面落地。

通义百聆今天放出了一套“组合拳”，把“会说话”和“听得懂”两件事同时做到了位。语音合成与语音识别两大核心能力同步升级，并直接开源，对开发者和实际应用场景都释放出更明确的信号。

3秒录音，声音还能“换语言、换情绪”

先来看“说话”的部分。升级后的 Fun-CosyVoice3，只需要一段3秒左右的参考音频，就能复刻音色，并在不同语言、方言甚至情绪之间自由切换。普通话、粤语、英语、日语可以来回切换，开心、愤怒等情绪也能直接控制，音色一致性依然保持得很稳。

最直观的升级变化有三个：

同时，官方还同步开源了 Fun-CosyVoice3-0.5B 版本。这个版本主打轻量化和可落地，支持 zero-shot 音色克隆、本地部署和二次开发，更适合希望把语音能力真正“装进系统”的团队。

嘈杂环境下，也能把话“听清楚”

如果说 CosyVoice3 解决的是“怎么说”，那 Fun-ASR 解决的就是“怎么听”。

这次 Fun-ASR 的升级，重点放在真实复杂环境里。在会议室、地铁、车载等高噪声场景下，识别准确率可达93% ，绕口令、背景音乐、说唱歌词这些过去最容易翻车的内容，也都被重点优化。

更关键的是覆盖面：

针对企业级场景，Fun-ASR 还引入了 RAG（检索增强生成）机制，把可定制热词数量提升到10000条，同时不牺牲通用识别准确率，对金融、医疗、教育等行业更友好。

除了主模型，Fun-ASR-Nano（0.8B）也正式开源。在参数量大幅压缩的情况下，推理成本更低，依然支持本地部署和定制微调，给资源受限的场景多了一个现实选择。

GitHub链接：

https://github.com/FunAudioLLM/CosyVoice https://github.com/FunAudioLLM/Fun-ASR

国内体验demo：

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B

https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/

国内模型仓库：https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512

参考资料：https://mp.weixin.qq.com/s/0c_cK2zwxkuR1lx-n8cNxA