Qwen3-Omni升级:支持多语言、懂视频、还能自定义“说话风格”

工具推荐 1765450706更新

1

导读:Qwen3-Omni 迎升级,最新版本Qwen3-Omni-Flash-2025-12-01 重点提升了音视频理解、语音表现、多语言稳定性,以及对 System Prompt 的可控能力。升级后的交互更加自然顺畅,复杂场景下的反馈也更稳定可靠。


阿里推出的 Qwen3-Omni 系列迎来一次面向全模态交互的关键升级,新版本定名为 Qwen3-Omni-Flash-2025-12-01

相比上一代,这次更新更像是一次“深度打磨”,把用户最常遇到的音视频理解不稳、语音输出生硬、多语言不一致等问题进行了集中处理。

首先,音视频交互能力的改善非常明显。开发团队对口语化表达、模糊指令、多轮对话等高频场景进行了强化,新的音视频处理能力更能跟上自然对话的节奏,减少误解和断点,整体体验比过去流畅得多。

另一个变化是,系统提示(System Prompt)的可控范围被大幅放开。如今用户可以更精细地定义交互方式,包括说话风格、语气偏好、表达方式甚至回答长度。这种更高的可控性,可以让不同应用场景能更快适配合适的人设和沟通方式

在语言能力方面,新版本也完成了一次稳定性升级。支持的文本、语音识别、语音合成语言覆盖更广,多语言遵循问题得到彻底优化,在跨语言沟通时更加统一可靠,避免出现之前偶发的语言混杂现象。

语音生成是本次升级中感知最强的一项。新版针对韵律、语速、停顿做了全面调整,解决了以往讲话拖沓或机械的问题,让整体语音输出更贴近真人的节奏与自然感

开发团队同时透露,接下来会继续推进多说话人识别、视频 OCR、音视频主动学习等能力建设,进一步完善基于智能体的工作流。


参考资料:https://mp.weixin.qq.com/s/EIHRk4joXUvznFxTrOTung