Qwen3-Omni升级：支持多语言、懂视频、还能自定义“说话风格”-AI工具推荐-AI工具导航

Qwen3-Omni升级：支持多语言、懂视频、还能自定义“说话风格”

导读：Qwen3-Omni 迎升级，最新版本Qwen3-Omni-Flash-2025-12-01 重点提升了音视频理解、语音表现、多语言稳定性，以及对 System Prompt 的可控能力。升级后的交互更加自然顺畅，复杂场景下的反馈也更稳定可靠。

阿里推出的 Qwen3-Omni 系列迎来一次面向全模态交互的关键升级，新版本定名为 Qwen3-Omni-Flash-2025-12-01。

相比上一代，这次更新更像是一次“深度打磨”，把用户最常遇到的音视频理解不稳、语音输出生硬、多语言不一致等问题进行了集中处理。

首先，音视频交互能力的改善非常明显。开发团队对口语化表达、模糊指令、多轮对话等高频场景进行了强化，新的音视频处理能力更能跟上自然对话的节奏，减少误解和断点，整体体验比过去流畅得多。

另一个变化是，系统提示（System Prompt）的可控范围被大幅放开。如今用户可以更精细地定义交互方式，包括说话风格、语气偏好、表达方式甚至回答长度。这种更高的可控性，可以让不同应用场景能更快适配合适的人设和沟通方式。

在语言能力方面，新版本也完成了一次稳定性升级。支持的文本、语音识别、语音合成语言覆盖更广，多语言遵循问题得到彻底优化，在跨语言沟通时更加统一可靠，避免出现之前偶发的语言混杂现象。

语音生成是本次升级中感知最强的一项。新版针对韵律、语速、停顿做了全面调整，解决了以往讲话拖沓或机械的问题，让整体语音输出更贴近真人的节奏与自然感。

开发团队同时透露，接下来会继续推进多说话人识别、视频 OCR、音视频主动学习等能力建设，进一步完善基于智能体的工作流。

参考资料：https://mp.weixin.qq.com/s/EIHRk4joXUvznFxTrOTung