NVIDIA与Llama 4 Maverick和Blackwell GPU超过1,000 TPS/用户
NVIDIA Surpasses 1,000 TPS/User with Llama 4 Maverick and Blackwell GPUs
Lawrence Jengar May 23, 2025 02:10
NVIDIA achieves a world-record inference speed of over 1,000 TPS/user using Blackwell GPUs and Llama 4 Maverick,为AI模型性能设定新的标准。
nvidia通过其最新成就为人工智能绩效树立了新的基准,使用Llama 4 Maverick Model和Blackwell GPU,打破了每个用户屏障的每秒1000个令牌(TPS)。 AI基准测试服务人工分析可以独立验证这一成就,这标志着Larg的重要里程碑E语言模型(LLM)推理速度。
技术进步
实现了一个单个NVIDIA DGX B200节点,配备了八个NVIDIA BLACKWELL GPU,该节点设法在Llama 4 Maverick,A 400-Billim-parmeter-Parameter-Parameter-Paremeter上处理超过1,000 TPS。这种性能使Blackwell成为部署Llama 4的最佳硬件,以最大化吞吐量或最小化潜伏期,在高吞吐量配置中最多可达到72,000 TPS/服务器。
优化技术
nvidia使用Tensorrt-llm liplm ulips utips uti ulips uti us uti us utip y gpus。该公司还使用Eagle-3技术培训了投机性解码模型,与以前的基线相比,速度提高了四倍。这些增强功能在提高性能的同时保持响应精度,利用FP8数据类型来用于GEMM和专家的混合物,以确保与BF16指标相当的精度。
im在生成AI应用中,低潜伏期
平衡吞吐量和延迟至关重要。对于需要快速决策的关键应用程序,NVIDIA的Blackwell GPU通过最小化延迟而出色,如TPS/用户记录所示。该硬件能够处理高吞吐量和低潜伏期的能力,非常适合各种AI任务。
CUDA内核和投机解码
NVIDIA优化了用于GEMMS,MOE和注意力操作的CUDA内核,并利用空间分配和有效的存储数据加载,以实现最大程度的效果。通过使用较小,更快的草稿模型来预测投机令牌,采用了投机解码来加速LLM推理速度,并由较大的目标LLM验证。这种方法会产生重大的加速,尤其是当草案模型的预测准确。
程序化依赖性启动
以进一步提高性能,NVIDIA利用了程序化依赖性启动(PDL)来减少GPU闲置连续的CUDA内核之间的时间。该技术允许将内核执行重叠,改善GPU利用率并消除性能差距。
nvidia的成就强调了其在AI基础架构和数据中心技术方面的领导力,为AI模型部署的速度和效率设定了新的标准。 Blackwell架构和软件优化的创新继续突破了AI性能中可能的内容,确保响应迅速,实时用户体验和鲁棒的AI应用程序。
有关更多详细信息,请访问NVIDIA官方博客。
图像来源:suthterstockock source:shutterstock office source:shutterstock office source: