别只盯着Whisper了，Mistral发布Voxtral 2，带着SOTA性能和Apache 2.0协议杀回来了-AI前沿快讯-AI工具导航

别只盯着Whisper了，Mistral发布Voxtral 2，带着SOTA性能和Apache 2.0协议杀回来了

导读：Mistral 正式推出 Voxtral Transcribe 2，这是一款新一代语音转文本模型家族，包含两款产品：面向批量转录的 Voxtral Mini Transcribe V2 和面向实时应用的 Voxtral Realtime。Voxtral Realtime 采用 Apache 2.0 开源协议发布，可直接部署在边缘设备上。在性能指标上，该模型在 FLEURS 基准测试中实现了约 4% 的词错误率，同时价格仅为 $0.003/分钟，是目前性价比最高的转录 API。 Realtime 版本更是将延迟压至 200毫秒以内。

Mistral 正式发布 Voxtral Transcribe 2，包含两款定位明确的产品：

Voxtral Mini Transcribe V2：专为批量转录场景设计，支持说话人分离、上下文偏置和词级时间戳，在 13 种语言上实现了最先进的转录质量。

Voxtral Realtime：则专为实时转录而生，采用全新的流式架构，延迟可配置至 200毫秒以内，解锁了语音优先应用的新类别。更关键的是，Voxtral Realtime 采用 Apache 2.0 开源协议发布，开发者可以自由地在边缘设备上部署，可满足隐私优先场景的需求。

同时，Mistral 还在 Mistral Studio 中推出了 Audio Playground，用户可以直接上传音频文件测试 Voxtral Transcribe 2 的转录效果，支持说话人分离、时间戳切换和上下文偏置词设置，上限为 10 个音频文件，每个最大 1GB。

性能数据：词错误率最低，价格最具竞争力

在语音转文本领域，词错误率（WER）是衡量模型质量的核心指标。根据官方公布的 FLEURS 基准测试数据，Voxtral Mini Transcribe V2 在约 4% 的词错误率水平上实现了行业最低价格 $0.003/分钟。

与竞争对手相比，Voxtral 在准确度上超越了 GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal 和 Deepgram Nova，同时处理速度比 ElevenLabs 的 Scribe v2 快约 3 倍，成本仅为其 五分之一。

在说话人分离（Diarization）方面，Voxtral 2.0 在五项英语基准测试（Switchboard、CallHome、AMI-IHM、AMI-SDM、SBCSAE）和 TalkBank 多语言基准测试中也表现出色，平均分离错误率处于行业领先水平。

延迟突破：200ms 实时转录成现实

实时语音转文本的最大挑战在于延迟。传统方案通常采用离线模型进行分块处理，这导致响应时间难以满足交互式应用的需求。Voxtral Realtime 采用全新的流式架构，在音频到达时即刻开始转录，而不是等待完整音频片段。在 2.4 秒延迟配置下，它能达到与 Voxtral Mini Transcribe V2 相当的转录质量。而在 480ms 延迟下，词错误率仅上升 1-2%，足以支撑语音代理（Voice Agents）实现接近离线准确率的实时交互体验。

定价与可用性

Voxtral Mini Transcribe V2 已通过 API 开放，价格为 $0.003/分钟。用户可以在全新的 Mistral Studio Audio Playground 或 Le Chat 中立即试用。

Voxtral Realtime 的 API 定价为 $0.006/分钟，同时模型权重已在 Hugging Face Hub 上以 Apache 2.0 协议开源发布，开发者可自由下载和部署。

参考资料：https://mistral.ai/news/voxtral-transcribe-2