
前沿资讯
1758533060更新
0
【导读】:近日,在华为Connect 2025大会上,华为发布了全新一代 Atlas 950超级集群(SuperCluster)。据悉,这台庞然大物推理性能可达 1 ZettaFLOPS,训练性能则能达到 524 ExaFLOPS,其规模相当于150个篮球场。
Atlas 950超级集群由 64个Atlas 950 SuperPoD 组成,总共集成 52万多颗昇腾950DT芯片,分布在 1万多个光互联机柜中。按照官方数据,这套系统在AI推理方面的峰值性能达到 1 FP4 ZettaFLOPS,训练性能可达 524 FP8 ExaFLOPS。
1 FP4 ZettaFLOPS,指的是在 FP4 低精度格式下,它理论上每秒能执行 10²¹ 次浮点运算。简单对比一下,目前全球最快的商用 AI 超级计算平台之一是甲骨文 Oracle 的 Blackwell 超级集群,采用 131072 块 Blackwell GPU,在稀疏 FP4 下的推理性能约为 2.4 ZettaFLOPS。
另外,524 ExaFLOPS(FP8 格式),这里的 FP8 是一种比常见的 FP16 或 BF16 更低精度的浮点数格式,优点是能显著减少计算开销和存储带宽需求,同时保持一定的训练稳定性。对比之下,一块 NVIDIA H100 GPU 在 FP8 下的算力大约是 几千 TFLOPS(10¹² 级别),而华为的系统则是 10¹⁸ 级别的算力。
华为把这台机器定位为支撑“百亿到万亿参数级别AI模型”的平台,目标是为下一代密集型和稀疏型大模型提供训练和推理环境。
和英伟达即将推出的 Rubin集群相比,华为并不讳言单颗芯片性能差距。
- 单个Atlas 950 SuperPoD 集成 8192颗昇腾950DT,计算能力比前一代提升约20倍。
- 整个 Atlas 950超级集群 的占地面积约 6.4万平方米,差不多9个标准足球场大。
相比之下,英伟达的 Vera Rubin NVL144 仅需几平方米机柜即可运行。通过“极限堆叠”实现惊人性能,代价则是巨大的物理体量和基础设施成本。
除了算力规模,华为还发布了自研 UBoE(UnifiedBus over Ethernet)互联协议。官方称,它比传统 RoCE 更稳定、延迟更低、对网络设备依赖更少。
同时,华为还透露了下一步规划:2027年将推出 Atlas 960超级集群,预计搭载超过百万颗昇腾960芯片,算力翻倍,推理性能将突破 4 ZettaFLOPS。
参考资料:https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-unveils-atlas-950-supercluster-touting-1-fp4-zettaflops-performance-for-ai-inference-and-524-fp8-exaflops-for-ai-training-features-hundreds-of-thousands-of-950dt-apus