百度智能云王雁鹏:优化算力成本势在必行,提出五大解决方案

前沿资讯 1726397646更新

0

9月13日,在百度智能云举办的媒体技术沙龙上,百度系统架构师、百度智能云AI计算部负责人王雁鹏分享了降低AI万卡集群算力开支的策略。随着深度学习技术的不断进步,GPU集群的规模已经达到了万卡级别,算力成本的优化势在必行。

王雁鹏提出了五大解决方案。首先,他强调了RDMA网络的重要性。在AI集群中,RDMA网络的应用显得尤为重要,它与传统的IB网络相比,更适合AI集群的需求。RDMA网络优先考虑吞吐量而非延迟,这有效提升了AI集群的带宽有效率和模型性能。百度基于RDMA网络构建万卡级别以上的AI集群,实现了AI集群的带宽有效率从60%提升至95%,模型性能增强了5%到10%。

其次,王雁鹏强调了自动并行策略在AI集群演进中的重要性。自动并行策略搜索有两个核心策略:一是采取“边计算边通信”的方式,节省数据搬运所花费的时间,减少算力和能源损耗;二是显存优化的切分策略,将运算中断所浪费的时间控制在几分钟内。这些策略使得百度的模型性能达到开源模型的130%,也比人工调优的模型效果好。

训练稳定性方面,王雁鹏表示,稳定不间断的任务运行对于AI训练至关重要。百度通过一系列技术手段,如Hang检测、慢节点检测等,确保了文心一言大模型的有效训练时长比例超过99%。这些技术手段的运用,使得百度能够在万卡规模的AI集群中断频率较高的情况下,依然保持了高效的训练稳定性。

针对资源利用率问题,王雁鹏提出了训练一体的解决方案。通过动态分配算力流量和资源,百度百舸异构计算平台成功将资源利用率从50%提升至90%,有效应对了主流模型训练中的劣势。这种动态分配算力的方法,不仅提升了资源的利用效率,也为AI模型训练提供了更加灵活的资源配置。

最后,王雁鹏探讨了多芯异构混训在解决算力卡脖子问题中的关键作用。他提出,通过搭建跨芯沟通库和采用Accelerator抽象设计方法,百度实现了在千卡和万卡规模下性能损失的最小化。这种多芯异构混训的方法,不仅提升了算力的利用效率,也为解决算力瓶颈问题提供了新的解决方案。

接下来,王雁鹏透露,百度将继续在三个核心技术上寻求突破:实现更高效的拓扑和拥塞控制、扩大跨地域RDMA网络范围以及进一步提升训练故障恢复速度。这些技术突破将为未来十万卡级别的AI集群竞争中提供有力支持。