Qwen3-ASR-Toolkit上线：长音频转写不再受“3分钟限制-AI前沿快讯-AI工具导航

Qwen3-ASR-Toolkit上线：长音频转写不再受“3分钟限制

导读：阿里云开源的Qwen3-ASR-Toolkit工具正式发布。它最大的亮点是突破了音频转写3分钟时长限制，支持长音频、长视频的快速转写。借助语音活动检测（VAD）智能切分、多线程并行处理和自动纠错清理，用户可以更高效地将数小时的录音或视频转为文本。

在日常工作和学习中，录音转写往往会遇到一个尴尬问题：市面上的不少工具对音频长度有限制，长时间的会议或课程总是需要手动分割。现在，Qwen3-ASR-Toolkit给出了一个更方便的解决方案。

这款命令行工具由阿里云推出，专为解决Qwen-ASR API的3分钟转写上限而设计。它的工作方式是，先用语音活动检测（VAD）自动识别音频中的自然停顿，再把长文件切分成合理的小段，并行上传到API进行转写。这样，几个小时的内容也能快速处理，避免了人为剪辑和句子被硬性截断的问题。

除了速度上的提升，工具在结果清理方面也做了优化。它能自动去除常见的转写错误和重复片段，使最终文本更简洁准确。同时，它还支持任意音视频格式，从常见的 .mp4、.wav，到播客常用的 .m4a，都可以直接处理。

安装和使用也不复杂。用户只需具备Python环境和FFmpeg，再配置好阿里云的DashScope API Key，即可在终端输入一行命令完成转写。例如：

qwen3-asr -i "my_lecture.mp4"

系统会自动生成转写结果，并保存为文本文件，方便后续整理和使用。

工具还提供了一些实用参数，比如增加并行线程数提升速度、在嘈杂环境下提供上下文提示改善识别准确度，甚至可以开启静默模式，减少过程输出，只保留最终结果。

对于需要处理大量音视频的用户来说，Qwen3-ASR-Toolkit无疑能节省大量时间和精力。

参考资料：https://github.com/QwenLM/Qwen3-ASR-Toolkit