华为发布Atlas 950超级集群：性能直逼ZettaFLOPS，占地堪比九个足球场-AI前沿快讯-AI工具导航

华为发布Atlas 950超级集群：性能直逼ZettaFLOPS，占地堪比九个足球场

【导读】：近日，在华为Connect 2025大会上，华为发布了全新一代 Atlas 950超级集群（SuperCluster）。据悉，这台庞然大物推理性能可达 1 ZettaFLOPS，训练性能则能达到 524 ExaFLOPS，其规模相当于150个篮球场。

Atlas 950超级集群由 64个Atlas 950 SuperPoD 组成，总共集成 52万多颗昇腾950DT芯片，分布在 1万多个光互联机柜中。按照官方数据，这套系统在AI推理方面的峰值性能达到 1 FP4 ZettaFLOPS，训练性能可达 524 FP8 ExaFLOPS。

1 FP4 ZettaFLOPS，指的是在 FP4 低精度格式下，它理论上每秒能执行 10²¹ 次浮点运算。简单对比一下，目前全球最快的商用 AI 超级计算平台之一是甲骨文 Oracle 的 Blackwell 超级集群，采用 131072 块 Blackwell GPU，在稀疏 FP4 下的推理性能约为 2.4 ZettaFLOPS。

另外，524 ExaFLOPS（FP8 格式），这里的 FP8 是一种比常见的 FP16 或 BF16 更低精度的浮点数格式，优点是能显著减少计算开销和存储带宽需求，同时保持一定的训练稳定性。对比之下，一块 NVIDIA H100 GPU 在 FP8 下的算力大约是几千 TFLOPS（10¹² 级别），而华为的系统则是 10¹⁸ 级别的算力。

华为把这台机器定位为支撑“百亿到万亿参数级别AI模型”的平台，目标是为下一代密集型和稀疏型大模型提供训练和推理环境。

和英伟达即将推出的 Rubin集群相比，华为并不讳言单颗芯片性能差距。

单个Atlas 950 SuperPoD 集成 8192颗昇腾950DT，计算能力比前一代提升约20倍。
整个 Atlas 950超级集群的占地面积约 6.4万平方米，差不多9个标准足球场大。

相比之下，英伟达的 Vera Rubin NVL144 仅需几平方米机柜即可运行。通过“极限堆叠”实现惊人性能，代价则是巨大的物理体量和基础设施成本。

除了算力规模，华为还发布了自研 UBoE（UnifiedBus over Ethernet）互联协议。官方称，它比传统 RoCE 更稳定、延迟更低、对网络设备依赖更少。

同时，华为还透露了下一步规划：2027年将推出 Atlas 960超级集群，预计搭载超过百万颗昇腾960芯片，算力翻倍，推理性能将突破 4 ZettaFLOPS。

参考资料：https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-unveils-atlas-950-supercluster-touting-1-fp4-zettaflops-performance-for-ai-inference-and-524-fp8-exaflops-for-ai-training-features-hundreds-of-thousands-of-950dt-apus