前沿资讯
1770287475更新
0
导读:Mistral 正式推出 Voxtral Transcribe 2,这是一款新一代语音转文本模型家族,包含两款产品:面向批量转录的 Voxtral Mini Transcribe V2 和面向实时应用的 Voxtral Realtime。Voxtral Realtime 采用 Apache 2.0 开源协议发布,可直接部署在边缘设备上。在性能指标上,该模型在 FLEURS 基准测试中实现了约 4% 的词错误率,同时价格仅为 $0.003/分钟,是目前性价比最高的转录 API。 Realtime 版本更是将延迟压至 200毫秒以内。
Mistral 正式发布 Voxtral Transcribe 2,包含两款定位明确的产品:
Voxtral Mini Transcribe V2:专为批量转录场景设计,支持说话人分离、上下文偏置和词级时间戳,在 13 种语言上实现了最先进的转录质量。
Voxtral Realtime:则专为实时转录而生,采用全新的流式架构,延迟可配置至 200毫秒以内,解锁了语音优先应用的新类别。更关键的是,Voxtral Realtime 采用 Apache 2.0 开源协议发布,开发者可以自由地在边缘设备上部署,可满足隐私优先场景的需求。

同时,Mistral 还在 Mistral Studio 中推出了 Audio Playground,用户可以直接上传音频文件测试 Voxtral Transcribe 2 的转录效果,支持说话人分离、时间戳切换和上下文偏置词设置,上限为 10 个音频文件,每个最大 1GB。
性能数据:词错误率最低,价格最具竞争力
在语音转文本领域,词错误率(WER)是衡量模型质量的核心指标。根据官方公布的 FLEURS 基准测试数据,Voxtral Mini Transcribe V2 在约 4% 的词错误率水平上实现了行业最低价格 $0.003/分钟。
与竞争对手相比,Voxtral 在准确度上超越了 GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal 和 Deepgram Nova,同时处理速度比 ElevenLabs 的 Scribe v2 快约 3 倍,成本仅为其 五分之一。
在说话人分离(Diarization)方面,Voxtral 2.0 在五项英语基准测试(Switchboard、CallHome、AMI-IHM、AMI-SDM、SBCSAE)和 TalkBank 多语言基准测试中也表现出色,平均分离错误率处于行业领先水平。
延迟突破:200ms 实时转录成现实
实时语音转文本的最大挑战在于延迟。传统方案通常采用离线模型进行分块处理,这导致响应时间难以满足交互式应用的需求。Voxtral Realtime 采用全新的流式架构,在音频到达时即刻开始转录,而不是等待完整音频片段。在 2.4 秒延迟配置下,它能达到与 Voxtral Mini Transcribe V2 相当的转录质量。而在 480ms 延迟下,词错误率仅上升 1-2%,足以支撑语音代理(Voice Agents)实现接近离线准确率的实时交互体验。
定价与可用性
Voxtral Mini Transcribe V2 已通过 API 开放,价格为 $0.003/分钟。用户可以在全新的 Mistral Studio Audio Playground 或 Le Chat 中立即试用。
Voxtral Realtime 的 API 定价为 $0.006/分钟,同时模型权重已在 Hugging Face Hub 上以 Apache 2.0 协议开源发布,开发者可自由下载和部署。
参考资料:https://mistral.ai/news/voxtral-transcribe-2
豫公网安备41010702003375号