百度智能云王雁鹏：优化算力成本势在必行，提出五大解决方案-AI前沿快讯-AI工具导航

百度智能云王雁鹏：优化算力成本势在必行，提出五大解决方案

9月13日，在百度智能云举办的媒体技术沙龙上，百度系统架构师、百度智能云AI计算部负责人王雁鹏分享了降低AI万卡集群算力开支的策略。随着深度学习技术的不断进步，GPU集群的规模已经达到了万卡级别，算力成本的优化势在必行。

王雁鹏提出了五大解决方案。首先，他强调了RDMA网络的重要性。在AI集群中，RDMA网络的应用显得尤为重要，它与传统的IB网络相比，更适合AI集群的需求。RDMA网络优先考虑吞吐量而非延迟，这有效提升了AI集群的带宽有效率和模型性能。百度基于RDMA网络构建万卡级别以上的AI集群，实现了AI集群的带宽有效率从60%提升至95%，模型性能增强了5%到10%。

其次，王雁鹏强调了自动并行策略在AI集群演进中的重要性。自动并行策略搜索有两个核心策略：一是采取“边计算边通信”的方式，节省数据搬运所花费的时间，减少算力和能源损耗；二是显存优化的切分策略，将运算中断所浪费的时间控制在几分钟内。这些策略使得百度的模型性能达到开源模型的130%，也比人工调优的模型效果好。

训练稳定性方面，王雁鹏表示，稳定不间断的任务运行对于AI训练至关重要。百度通过一系列技术手段，如Hang检测、慢节点检测等，确保了文心一言大模型的有效训练时长比例超过99%。这些技术手段的运用，使得百度能够在万卡规模的AI集群中断频率较高的情况下，依然保持了高效的训练稳定性。

针对资源利用率问题，王雁鹏提出了训练一体的解决方案。通过动态分配算力流量和资源，百度百舸异构计算平台成功将资源利用率从50%提升至90%，有效应对了主流模型训练中的劣势。这种动态分配算力的方法，不仅提升了资源的利用效率，也为AI模型训练提供了更加灵活的资源配置。

最后，王雁鹏探讨了多芯异构混训在解决算力卡脖子问题中的关键作用。他提出，通过搭建跨芯沟通库和采用Accelerator抽象设计方法，百度实现了在千卡和万卡规模下性能损失的最小化。这种多芯异构混训的方法，不仅提升了算力的利用效率，也为解决算力瓶颈问题提供了新的解决方案。

接下来，王雁鹏透露，百度将继续在三个核心技术上寻求突破：实现更高效的拓扑和拥塞控制、扩大跨地域RDMA网络范围以及进一步提升训练故障恢复速度。这些技术突破将为未来十万卡级别的AI集群竞争中提供有力支持。