通义百聆语音交互系统开源：能听会说，还能省下一半算力-AI前沿快讯-AI工具导航

通义百聆语音交互系统开源：能听会说，还能省下一半算力

导读：通义百聆家族开源全新语音对话系统 Fun-Audio-Chat-8B，不仅支持“语音对语音”的自然交流，还通过全新架构设计，在保证语音质量的同时节省近50%的GPU计算。更重要的是，它已经学会在真实对话中主动感知情绪、给出有分寸的回应。

今天，通义百聆宣布开源新一代语音交互系统 Fun-Audio-Chat-8B。这是通义百聆语音体系中，首次主打“语音对语音”的完整能力：用户可以直接开口说话，系统听得懂，也能用自然语音回应。

通义百聆是通义体系下的语音能力系列，此前已包含：

而这次开源的 Fun-Audio-Chat-8B，补齐了最关键的一环：直接进行语音对话。从“听清”“说清”，进阶到“听懂、会回应”，覆盖语音聊天、情感陪伴、智能设备、语音客服等多个常见场景。

而且，在没有任何情绪标签或额外提示的情况下，Fun-Audio-Chat-8B依然可以通过语义、语气、语速、停顿和重音等细节，判断用户当下的情绪状态。

例如，当用户说出“我一个人走在回家的路上，有人已经跟了我两个街区了”，系统不仅会安抚情绪，还会主动提醒用户前往灯光明亮、人多的地方，并询问是否需要协助联系家人确认位置。

除了情绪感知，Fun-Audio-Chat-8B还支持角色扮演和语音风格定制。用户可以指定说话风格、情绪状态、语速、高低音和音量等参数。

在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项主流测评中，Fun-Audio-Chat-8B均取得领先表现，在同量级开源方案中脱颖而出。

相比性能提升，还有一点更令人关注的是算力效率。

Fun-Audio-Chat-8B采用压缩—自回归—解压缩的双分辨率端到端架构，将音频帧率压低到 5Hz，在保证语音自然度的前提下，整体GPU计算量节省了接近50% 。

目前，该系统已同步上线魔搭社区、HuggingFace 与 GitHub，用户可自行下载体验。

从“能听会说”，到“听懂情绪、算得更省”，Fun-Audio-Chat-8B的开源，补齐了通义百聆语音体系中最关键的一块拼图。在语音交互逐渐走向真实使用场景的当下，这类兼顾体验与效率的方案，明显更值得关注。

参考资料：https://mp.weixin.qq.com/s/rrytjvvYU2llvfvhsk5-9g