MLPerf存储基准测试v2.0显示阵列性能大幅提升

MLPerf存储基准测试第二版显示,测试系统服务的加速器数量比2023年v1.0基准测试轮次大约增加了一倍。

MLCommons表示,本轮基准测试参与度显著提升,提交组织的地理代表性更强,提交测试的系统多样性更大。该基准测试评估存储系统在Unet3D、Cosmoflow和Resnet50AI训练任务上的性能表现,以及在Llama3训练运行中的检查点性能。

MLPerf存储工作组联合主席、Hammerspace现场首席技术官CurtisAnderson表示:"在大型AI模型训练的计算规模下,常规组件故障就是生活中的事实。检查点现在已成为这些系统中缓解故障的标准做法,我们很自豪能够提供存储系统的关键基准数据,帮助利益相关者优化其训练性能。"

随着AI训练集群GPU数量的增加,GPU故障概率也在上升,这需要训练运行暂停并从上次检查点重新启动,此时中间结果会被写入存储。MLCommons表示,如果加速器的平均故障时间为50,000小时,那么一个拥有100,000个加速器的集群在满负荷长时间运行时,可能每半小时就会遇到一次故障。拥有一百万个加速器的集群预计每三分钟就会出现一次故障。检查点写入和读取速度越快,失败任务重启越快,整体任务运行时间就越短。

MLPerf存储v2.0包含来自26个提交组织的200多项性能结果:Alluxio、阿贡国家实验室、DDN、ExponTech、FarmGPU、H3C、Hammerspace、HPE、JNIST/华为、Juicedata、金士顿、Kioxia、LightbitsLabs、MangoBoost、美光、Nutanix、甲骨文、广达电脑、三星、闪迪、Simplyblock、TTA、UBIX、IBM、西部数据和燕荣。

制造磁盘驱动器的西部数据还提供其OpenFlexData242RUEBOF(以太网闪存盒),测试了该产品的24驱动器和48驱动器版本,配备KIOXIACM7-V系列NVMeSSD,并与高性能存储软件提供商PEAK:AIO合作。

MLCommons的MLPerf负责人DavidKanter说:"这种参与水平对基准测试来说是游戏规则的改变者。它使我们能够公开发布关于现实世界系统更准确、更具代表性的数据。这反过来为前线的利益相关者提供了成功完成工作所需的信息和工具。检查点基准测试结果就是一个很好的例子:现在我们可以测量检查点性能,就可以考虑优化它。"

与v1.0相比,v2.0提交包含了更多样化的技术方法来为AI训练提供高性能存储,包括:

-6个本地存储解决方案

-2个使用存储内加速器的解决方案

-13个软件定义解决方案

-12个块系统

-16个本地共享存储解决方案

-2个对象存储

MLPerf存储工作组联合主席、麦吉尔大学助理教授OanaBalmau说:"一切都在扩大规模:模型、参数、训练数据集、集群和加速器。看到存储系统提供商不断创新以支持更大规模的系统并不令人意外。"

DDN发布声明表示其结果显示,该公司"通过其AI400X3存储设备创造了新的行业基准",该设备"提供了破纪录的吞吐量和无与伦比的性能密度,从紧凑、节能的2RU系统饱和数百个NvidiaH100GPU。"这是性能密度,而不是总加速器(GPU)数量和GiB/秒吞吐量等绝对数字。

DDN表示,在单节点基准测试中,DDNAI400X3实现了:

在Cosmoflow和Resnet50训练中实现最高性能密度,仅用2RU2400W设备就为52个和208个模拟H100GPU提供服务

IO性能达到30.6GBps读取和15.3GBps写入,Llama3-8b检查点的加载和保存时间分别仅为3.4秒和5.7秒

在多节点基准测试中,它实现了:

Unet3DH100训练的120.68GBps持续读取吞吐量和45个模拟加速器。在v1基准测试中为99.02GBps和36个加速器

在ResNet50上支持多达640个模拟H100GPU

在Cosmoflow上支持多达135个模拟H100GPU,新的AI400X3比去年的结果提升了2倍。

DDN声称,自2016年以来,Nvidia一直完全依赖DDN为其内部AI集群提供动力。

西部数据表示,在Unet3D工作负载中,其OpenFlexData24实现了106.5GBps(99.2GiB/s)的持续读取吞吐量,在三个物理客户端节点上饱和36个模拟H100GPU。借助PEAK:AIOAI数据服务器,OpenFlexData24能够提供64.9GBps(59.6GiB/s),从单个头服务器和单个客户端节点饱和22个模拟H100GPU。西部数据平台业务副总裁兼总经理KurtChan说:"OpenFlexData244000系列NVMe-oF存储平台在要求苛刻的AI基准测试中提供接近饱和的性能,无论是独立运行还是与单个PEAK:AIOAI数据服务器设备配合使用,都能实现更快的结果时间和减少基础设施扩张。"

完整的MLPerf存储v2.0基准测试结果可在此处获得。

MLPerf邀请利益相关者加入MLPerf存储工作组,帮助其继续发展基准测试套件。对存储系统和检查点问题的更深入理解,以及检查点基准测试的设计,可以在MLPerf存储工作组成员WesVaske的文章中找到。

Q&A

Q1:MLPerf存储基准测试v2.0有什么新变化?

A:MLPerf存储基准测试v2.0显示测试系统服务的加速器数量比2023年v1.0版本大约增加了一倍,参与度显著提升,包含来自26个组织的200多项性能结果,地理代表性更强,系统多样性更大。

Q2:为什么检查点性能对AI训练这么重要?

A:随着AI训练集群GPU数量增加,故障概率上升。比如100,000个加速器的集群可能每半小时故障一次,一百万个加速器的集群每三分钟就可能故障一次。检查点写入和读取速度越快,失败任务重启越快,整体训练时间就越短。

Q3:DDNAI400X3在基准测试中表现如何?

A:DDNAI400X3在单节点测试中,仅用2RU设备就为208个模拟H100GPU提供服务,IO性能达到30.6GBps读取。在多节点测试中,实现120.68GBps持续读取吞吐量,比v1版本的99.02GBps有显著提升。