华为的昇腾AI GPU与英伟达的差距还有多大?

前沿资讯 1748510919更新

0

英伟达发布2026财年Q1季度财报之际,我们看下华为的昇腾AI GPU与英伟达的差距还有多大。据资料显示,华为昇腾910C GPU采用与英伟达相似的技术路径,针对AI模型规模与数据处理量爆发式增长的行业趋势,创新性引入双芯片Die设计,通过互连桥接技术将两个GPU核心与周边内存模块高效协同,实现计算与存储能力的双倍提升。

根据官方参数,该芯片在16位精度下可提供800 Teraflops的计算性能,达到英伟达H20的4倍。虽然与英伟达旗舰产品GB200仍有差距,但其内存带宽优势与至少高出两倍的每瓦性能效率,使其成为国内极具竞争力的本土替代方案。

华为将384颗昇腾910C GPU整合为AI云矩阵384系统,直指英伟达DGX Cloud 72系统。DGX 72包含72颗GPU,通过Nvlink连接,使用66个Nvlink交换机以扁平化方式互连所有GPU,允许多个GPU相互通信,且这些连接主要是铜缆连接,整个系统能够实现180 petaflops的FP16计算性能。华为的新云矩阵由384颗GPU组成,数量是英伟达的五倍,且系统性能几乎达到英伟达方案的两倍。不过,在能效方面,云矩阵的系统级功耗约为600千瓦,而英伟达DGX 72为145千瓦,功耗高出四倍。

英伟达和华为都采用了“全对全”(all-to-all)架构,即每个GPU与其他所有GPU通信,英伟达的DGX 72为了互连72颗GB200 GPU及机架内的Nvlink交换机,英伟达使用了5000根铜缆。而华为依赖光学链路,不仅在机架之间,甚至在GPU之间也使用光连接,这些光收发器会消耗大量电力,能够突破传统电气连接的带宽瓶颈,为大规模集群的低延迟数据交互提供可能。

显然,这并非英伟达1:1的替代品,但足以取代英伟达的H20 GPU,且在集群层面仍能超越英伟达的性能。另外,与美国和欧洲不同,国内对功耗限制的担忧较少,因为国内电价成本较低且电网基础设施持续升级的特点,厂商对华为方案功耗的容忍度也更高。

华为云矩阵运行在华为专有的Kan软件栈上,该软件栈类似于英伟达的CUDA栈,专为其GPU设计,并针对其神经网络处理单元(NPU)进行了优化。Kan软件栈负责从编译器到图优化、再到硬件工作负载分配的所有环节,在这个新的云矩阵系统中发挥着关键作用。华为NPU基于其专有的达芬奇架构构建,用于加速矩阵乘法或张量处理等AI任务。

华为在芯片技术上虽稍有落后,但其在系统层面、网络层面和软件栈层面找到了变通之法。据了解,下一代华为GPU昇腾920 GPU正在生产中,外媒表示:“虽然制造仍然是其面临的最大挑战之一,但这只是时间、资金和毅力的问题,而且,华为也并不缺乏。”

参考资料:https://www.youtube.com/watch?v=r84Y1iXPRgk