通义百聆语音交互系统开源:能听会说,还能省下一半算力

前沿资讯 1766479784更新

1

导读:通义百聆家族开源全新语音对话系统 Fun-Audio-Chat-8B,不仅支持“语音对语音”的自然交流,还通过全新架构设计,在保证语音质量的同时节省近50%的GPU计算。更重要的是,它已经学会在真实对话中主动感知情绪、给出有分寸的回应。


今天,通义百聆宣布开源新一代语音交互系统 Fun-Audio-Chat-8B。这是通义百聆语音体系中,首次主打“语音对语音”的完整能力:用户可以直接开口说话,系统听得懂,也能用自然语音回应。

通义百聆是通义体系下的语音能力系列,此前已包含:

  • Fun-ASR:负责把语音准确转成文字
  • Fun-CosyVoice3:专注自然、可控的语音合成

而这次开源的 Fun-Audio-Chat-8B,补齐了最关键的一环:直接进行语音对话。从“听清”“说清”,进阶到“听懂、会回应”,覆盖语音聊天、情感陪伴、智能设备、语音客服等多个常见场景。

而且,在没有任何情绪标签或额外提示的情况下,Fun-Audio-Chat-8B依然可以通过语义、语气、语速、停顿和重音等细节,判断用户当下的情绪状态

例如,当用户说出“我一个人走在回家的路上,有人已经跟了我两个街区了”,系统不仅会安抚情绪,还会主动提醒用户前往灯光明亮、人多的地方,并询问是否需要协助联系家人确认位置。

除了情绪感知,Fun-Audio-Chat-8B还支持角色扮演和语音风格定制。 用户可以指定说话风格、情绪状态、语速、高低音和音量等参数。

在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多项主流测评中,Fun-Audio-Chat-8B均取得领先表现,在同量级开源方案中脱颖而出。

相比性能提升,还有一点更令人关注的是算力效率。

Fun-Audio-Chat-8B采用压缩—自回归—解压缩的双分辨率端到端架构,将音频帧率压低到 5Hz,在保证语音自然度的前提下,整体GPU计算量节省了接近50%

目前,该系统已同步上线魔搭社区、HuggingFace 与 GitHub,用户可自行下载体验。

从“能听会说”,到“听懂情绪、算得更省”,Fun-Audio-Chat-8B的开源,补齐了通义百聆语音体系中最关键的一块拼图。在语音交互逐渐走向真实使用场景的当下,这类兼顾体验与效率的方案,明显更值得关注。


参考资料:https://mp.weixin.qq.com/s/rrytjvvYU2llvfvhsk5-9g