
Qwen3-ASR-Toolkit上线:长音频转写不再受“3分钟限制
前沿资讯
1758188375更新
0
导读:阿里云开源的Qwen3-ASR-Toolkit工具正式发布。它最大的亮点是突破了音频转写3分钟时长限制,支持长音频、长视频的快速转写。借助语音活动检测(VAD)智能切分、多线程并行处理和自动纠错清理,用户可以更高效地将数小时的录音或视频转为文本。
在日常工作和学习中,录音转写往往会遇到一个尴尬问题:市面上的不少工具对音频长度有限制,长时间的会议或课程总是需要手动分割。现在,Qwen3-ASR-Toolkit给出了一个更方便的解决方案。
这款命令行工具由阿里云推出,专为解决Qwen-ASR API的3分钟转写上限而设计。它的工作方式是,先用语音活动检测(VAD)自动识别音频中的自然停顿,再把长文件切分成合理的小段,并行上传到API进行转写。这样,几个小时的内容也能快速处理,避免了人为剪辑和句子被硬性截断的问题。
除了速度上的提升,工具在结果清理方面也做了优化。它能自动去除常见的转写错误和重复片段,使最终文本更简洁准确。同时,它还支持任意音视频格式,从常见的 .mp4、.wav,到播客常用的 .m4a,都可以直接处理。
安装和使用也不复杂。用户只需具备Python环境和FFmpeg,再配置好阿里云的DashScope API Key,即可在终端输入一行命令完成转写。例如:
qwen3-asr -i "my_lecture.mp4"
系统会自动生成转写结果,并保存为文本文件,方便后续整理和使用。
工具还提供了一些实用参数,比如增加并行线程数提升速度、在嘈杂环境下提供上下文提示改善识别准确度,甚至可以开启静默模式,减少过程输出,只保留最终结果。
对于需要处理大量音视频的用户来说,Qwen3-ASR-Toolkit无疑能节省大量时间和精力。
参考资料:https://github.com/QwenLM/Qwen3-ASR-Toolkit