9月13日,在百度智能云举办的媒体技能沙龙上,百度精彩系统架构师、百度智能云AI打算部卖力人王雁鹏表示,2024年大模型市场发展迅速,很多企业加大了在大模型领域的投入,但大家在大模型演习时碰着了一个共性问题,那便是算力利用率很低。
目前企业演习大模型的算力有效利用率不敷 50%,这意味着,一半以上的算力被摧残浪费蹂躏了。
在算力短缺且昂贵确当下,这无疑是一种巨大的摧残浪费蹂躏。

那么,究竟该如何提升算力的有效利用率呢?王雁鹏指出,算力有效利用率=能耗有效率 X 单卡算力有效率 X 并行扩展有效率 X 有效演习韶光 X 资源利用率,个中每一项都是乘积关系,任何一项的表现有细微偏差,都会对整体算力利用率产生系统性影响。
然而,目前一个行业共识的难点是,提升任意一项都绝非易事,系统性提升更是难上加难。

王雁鹏表示,针对以上5大核心技能难题、系统性提升GPU算力的有效利用率,百度智能云已经连续3年升级百舸AI异构打算平台。

从百度云的实践履历看,在提升能耗有效率方面,依托百舸打造的智算中央已经能够实现 PUE 值低于 1.1;在提升单卡算力有效率方面,百舸所供应的大模型训推加速套件 AIAK,可在主流开源大模型演习任务中,将 MFU 大幅提升至 70% 以上;在提升并行扩展有效率方面,百舸供应自动并行策略,把策略调优韶光缩短至分钟级别;在提升有效演习韶光方面,百舸能够供应全面的故障诊断手段以及自动容错能力,在万卡任务中实现大于 99% 的有效演习时长占比;在提升资源利用率方面,百舸支持训推一体技能,能够将算力资源利用率提升到90%。

训大年夜模型为啥这么贵专家一半以上算力被浪费了

“只管今年百舸实现了技能打破,在万卡集群的GPU算力有效利用率上达到了国际领先水平,但面向未来10万卡超大规模的打算,还有很多事情要做。
”王雁鹏说。

据悉,在9月25日举办的2024百度云智大会上,针对大模型的演习和推理做事,百舸将再次升级。

如何提升能耗有效率?

降落数据中央能耗,中国电网比美国有上风

最新数据显示,在全体社会用电量中,大约有 1% 至 3% 的电力花费在打算领域,大模型演习对电力的花费极为巨大。
因此,如何实现电力的有效利用,让电力用在任务上而不是用在散热上,已然成为当前行业所面临的一项巨大寻衅。

数据中央能源效率的指标常日用 PUE(Power Usage Effectiveness)来衡量,PUE 值越低意味着数据中央的能源效率就越高,即更多的能源被用于实际的打算任务(IT 设备),而较少的能源被摧残浪费蹂躏在赞助举动步伐上。
因此,降落 PUE 对付提高算力的有效利用率至关主要。

王雁鹏表示,从百舸的实践来看,为了降落 PUE,常日的做法是优化数据中央的制冷系统、提高设备的能效。
百度云自建数据中央的均匀 PUE 小于 1.1,目前业界均匀水平为大于 1.2,这紧张归功于百度云领先的数据中央制冷方案。
百度云在自建的数据中央里采取自研的液冷方案。
相较于传统的风冷方案,该液冷方案能够实现机器性能提升 10%,同时使机器故障率降落 60%-70%。

如何提升单卡算力有效率?

利用AI加速套件,提升大模型演习的MFU

GPU 最初是为图形处理而设计的,其具有大量的并行打算单元,善于处理大规模的并行打算任务。
然而,在用于通用打算尤其是人工智能模型演习时,会面临一些限定。

一方面,GPU 的内存架构和数据传输机制会导致瓶颈。
虽然 GPU 拥有高速的显存,但在处理大规模数据时,数据在显存和系统内存之间的传输可能会成为性能瓶颈,影响算力的充分发挥。

另一方面,GPU 的指令集和编程模型也可能限定其算力的发挥。
GPU 的指令集常日是针对图形处理优化的,对付一些繁芜的通用打算任务,可能须要进行大量的指令转换和优化才能高效实行。

我们常日利用 MFU(Model FLOPS Utilization)这个参数来去衡量 GPU 的有效利用率。
MFU 越高,算力利用率越高。
业内常日提升 MFU 的做法紧张包括:进行算法优化、利用 AI 加速套件等办法。

如何提升 MFU 呢?王雁鹏表示,针对 GPU 有效利用率低这一问题,百舸选择的路径是:自主研发出了大模型训推加速套件 AIAK。
该套件针对主流开源大模型,在显存、算子等层面进行了深度优化,比较于英伟达自研的算子加速库,实现了10%的性能提升。
同时,在主流开源大模型演习任务中,能够将 MFU 大幅提升至 70% 以上,达到了行业领先水平。

如何提升并行扩展有效率?

利用自动并行策略,降落策略调优韶光

为了提高演习效率、缩短演习韶光以及处理大规模数据和模型,大模型演习常日采取并行演习办法。
并行演习是指利用多个打算资源同时进行模型演习的过程,以往的并行演习须要手动进行繁芜的并行编程和任务分配,这种办法效率低、上手难度高。

王雁鹏表示,自动并行策略的涌现为办理这些难题带来了重大打破。

自动并行策略通过自动剖析打算任务和打算资源,实现了任务在多个打算单元上的合理分配并行实行,这一办法具有多方面的显著上风。
首先,它能够充分利用打算资源,避免了资源的闲置和摧残浪费蹂躏。
无论是 CPU、GPU 还是分布式打算节点,都能被高效地调动起来,共同为繁芜的打算任务做事。
其次,它大大降落了开拓难度,开拓者无需再进行繁琐的手动并行编程和任务分配,只需专注于打算任务的逻辑实现,极大地提高了开拓效率。
末了,自动并行策略显著提高了打算效率,通过合理的任务分配和资源利用,能够大幅缩短打算韶光,为各种运用处景的快速迭代和优化供应了有力支持。

以百度云为例,百舸平台供应的大模型训推加速套件AIAK在并行策略方面进行了深度优化,与开源方案比较,实现了30%的性能提升。
同时,使模型并行策略调优韶光大幅降落,从原来的小时级缩短至分钟级。
这种高效的调优能力使得开拓者能够更加快速地进行模型演习和优化,极大地提高了事情效率。

如何提升有效演习韶光?

提升AI根本举动步伐稳定性,减少故障规复韶光

Meta 在近期的一份研究报告中揭示了演习 Llama3-405B 参数模型的重大寻衅:该系统在包含 16384 个英伟达 H100 GPU 的集群上运行,在演习期间均匀每三个小时就发生一次故障, 54 天内经历了 419 次意外故障。
大规模打算任务的繁芜性使得故障险些成为一定。

马斯克近日也分享了一段全新「Cortex」AI 超级集群的视频。
它位于特斯拉奥斯汀总部,建成后将包含 50,000 个英伟达 H100 和 20,000 台特斯拉硬件,是“天下上最强大的 AI 演习集群”。
但有了 Meta 的前车之鉴,业内普遍认为,按 GPU 规模比例来看,「Cortex」AI 超级集群可能会面临指数级更高的故障率,估量每10-20分钟就会涌现一次故障,这给其未来的 AI 演习带来了更大的寻衅。

看来,大模型时期,企业须要稳定性高的 AI 根本举动步伐已成为行业共识。
那么如何提高 AI 根本举动步伐的稳定性呢?我们来看看主流大模型厂商是如何做的。

王雁鹏表示,Meta 开拓了多种工具和优化策略,优化方法包括缩短任务启动和检讨点韶光,并广泛采取 PyTorch 自带的 NCCL 翱翔记录器进行故障诊断,以及识别通信缓慢的节点。
目前实现了模型演习任务 90%以上的有效演习韶光。

再来看百度云。
百舸平台针对模型演习的稳定性进行了优化,百舸可以供应全面的故障诊断手段,可以快速自动侦测到导致演习任务非常的节点故障,同时供应自动化的容错能力,重新调度任务到康健节点,连续完成演习,目前已经将故障规复韶光从小时级降落到分钟级。

“经由几年的研发,目前,百舸在万卡任务上实现了大于99%的有效演习时长占比,这是非常不随意马虎的。
”王雁鹏说。

如何提升资源利用率?

训推一体,提升资源利用率

在传统的人工智能运用中,模型的演习和推理常日是在不同的集群中进行的。
演习阶段须要大量的打算资源和数据,常日在高性能打算集群中进行。
而推理阶段则须要将演习好的模型支配到实际运用处景中,对算力的哀求显著低于演习阶段。

为了提高算力资源的利用率,针对一些分外场景,可以将演习和推理过程稠浊在同一集群中进行,也便是我们所说的训推一体。
训推一体技能让集群能同时支持在线推理做事支配和离线演习任务,实现推理和演习之间的算力自由无缝切换。
演习和推理场景在不同韶光复用相同 GPU 资源,在推理时把高算力高显存的演习卡分给多个业务运用以提高卡利用率和推理效率。

王雁鹏指出,行业均匀算力资源利用率达 50%,这是一个比较空想的数据。
然而,借助百舸所供应的训推一体技能,能够实现高达 90% 的算力资源利用率。
在未来的人工智能运用中,训推一体将成为一种主要的技能趋势。