使用GPU的Apache Spark Workload加速:一种预测方法
Apache Spark Spark Workload加速加速:一种预测方法
tony kim 5月16日,2025年5月16日,2025年07:13
在大数据分析领域,优化处理速度和降低基础设施成本的领域中,有效。
仍然存在关注点。根据NVIDIA的最新报告,Apache Spark是扩大分析的领先平台,它越来越多地探索GPU加速作为提高性能的一种手段。
GPU ACCE的承诺和挑战Leration
尽管传统上依赖CPU,但Apache Spark向GPU加速度的转变有望在数据处理任务上进行大幅改进。但是,从CPU到GPU的过渡工作量并不直接。某些操作,例如涉及大数据移动或用户定义功能的操作可能不会受益于GPU加速。相反,涉及高心电图数据的任务,例如连接和聚集体,更有可能看到绩效提高。
Spark Rapids资格工具
解决工作负载迁移的复杂性,NVIDIA引入了Spark Rapids资格工具。该工具分析了基于CPU的SPARK应用程序,以确定适合GPU迁移的候选者。通过利用经过行业基准培训的机器学习模型,该工具可以预测GPU的潜在性能改善。它可以用作通过PIP软件包可用的命令行界面,并支持各种环境,包括AWS EMR And Google DataProc。
功能和输出
该工具利用了来自基于CPU的应用程序的Spark事件日志来评估GPU迁移的可行性。这些日志提供了有关应用程序执行的见解,并有助于识别GPU加速的最佳工作负载。该输出包括合格的工作负载列表,建议的火花配置以及建议的云服务环境的GPU群集形状。
自定义预测
,而预先训练的模型适合一般方案,该工具还支持创建定制资格模型的工具。用户可以使用自己的数据训练模型,从而提高预测准确性,以实现独特的工作负载和环境。当现有模型与特定的性能配置文件不符时,此功能特别有益。
入门
组织可以利用急流加速器的Apache Spark来促进GPU迁移而不更改现有代码。此外,Project Ether提供工具来自动化SPARK工作负载的资格和优化,以进行GPU加速。有关更多信息,请参阅《 Spark Rapids用户指南》。
图像来源:Shutterstock