突破百万tokens/s,微软Azure ND GB300 v6刷新AI推理性能纪录

前沿资讯 1762238708更新

0

导读: 凭借 NVIDIA GB300 NVL72 架构,微软最新一代 Azure ND GB300 v6 虚拟机在运行 Llama2-70B 模型时,实现了 每秒处理110万tokens 的惊人成绩,标志云端AI计算能力正迈向“百万tokens时代”的新阶段。


微软云(Microsoft Azure)公布了其最新一代高性能虚拟机 Azure ND GB300 v6 的测试成绩。

Llama2 70B 推理测试中,这台基于 NVIDIA GB300 NVL72 架构的虚拟机实现了 每秒1100,000个令牌 的处理速度,超越此前 ND GB200 v6 的 865,000 tokens/s,性能提升约 27%

这项成绩由独立机构 Signal65 观测验证,标志着超大规模 AI 性能正在成为现实。

ND GB300 v6 虚拟机采用全新的 NVIDIA Blackwell Ultra GPU。测试显示,每张 GPU 的吞吐量达到 15,200 tokens/s(±5%),相比上一代的 12,022 tokens/s 提升明显。作为参考,NVIDIA H100 GPU 在 MLPerf v4.1 基准中每秒仅能处理约 3,000 tokens,新款虚拟机单卡性能达到了过去的 5倍

从硬件配置上看,ND GB300 v6 虚拟机可在单个 NVL72 机架中运行 18 个实例,每个实例搭载 4 张 NVIDIA GB300 GPU,共计 72 张。每张显卡配备 约189GB显存,功耗高达 1400瓦,并配有 14TB NVMe RAID 本地存储

其他多项性能指标均有显著提升:

  • GEMM 浮点性能:是 ND H100 v5 的 2.5 倍
  • 高带宽内存(HBM)带宽:达到 7.37TB/s(92%效率)
  • NVLink C2C互连:CPU-GPU传输速度提升 4倍

Azure 团队表示,这一成果不仅仅是实验室数据,用户也可以通过开源指南在 Azure 环境中复现测试。

微软在 GitHub 上提供了完整的操作步骤与容器构建脚本,方便开发者验证性能并评估在自家AI工作负载中的应用潜力。

GitHub链接:https://github.com/Azure/AI-benchmarking-guide


参考资料:https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/breaking-the-million-token-barrier-the-technical-achievement-of-azure-nd-gb300-v/4466080