NVIDIA MLPERF v5.0:LLM基准的训练分数
NVIDIA MLPerf v5.0: Reproducing Training Scores for LLM Benchmarks
Peter Zhang Jun 04, 2025 18:17
NVIDIA outlines the process to replicate MLPerf v5.0 training scores for LLM benchmarks,强调硬件先决条件和逐步执行。
nvidia详细介绍了从MLPERF v5.0基准测试的训练分数的过程,专门针对Llama 2 70B Lora Fine-Tuning和Llama 3.1 405B预定。正如Sukru Burc Eryilmaz在NVIDIA博客上报道的那样,NVIDIA先前宣布在MLPERF培训v5.0中取得高达2.6倍的表现之后,该倡议提高了2.6倍。长凳商标是MLPERF综合评估套件的一部分,旨在衡量机器学习模型的性能。
基准测试的先决条件
必须满足这些基准,必须满足特定的硬件和软件要求。对于Llama 2 70B Lora,必须使用NVIDIA DGX B200或GB200 NVL72系统,而Llama 3.1 405b需要至少四个通过Infiniband连接的GB200 NVL72系统。此外,还需要大量磁盘空间:Llama 3.1和300 GB的2.5 TB用于Lora微调。
群集和环境设置
nvidia使用NVIDIA基本司令部经理(BCM)管理的集群设置,该集群设置需要基于Slurm,pys的环境,并需要基于Slurm,Pyot的环境。建议在RAID0中配置的快速本地存储,以最大程度地减少数据瓶颈。网络应将NVIDIA NVLINK和INFINIBAND纳入最佳性能。
执行基准
执行过程涉及多个步骤,从构建Docker C开始Ontainer并下载必要的数据集和检查点。基准测试使用Slurm运行,并带有一个配置文件详细详细介绍超参数和系统设置。该过程的设计为灵活,可以根据不同的系统尺寸和要求进行调整。
在基准测试过程中分析基准日志
,生成了包括密钥mlperf标记的日志。这些日志为初始化,培训进度和最终准确性提供了见解。最终目标是实现目标评估损失,这标志着成功完成基准。
有关更详细的说明,包括特定的脚本和配置示例,请参阅Nvidia Blog。
图像来源:Shutterstock