NVIDIA Dynamo通过LLM-D社区增强了大规模的AI推断
NVIDIA Dynamo Enhances Large-Scale AI Inference with llm-d Community
Joerg Hiller May 22, 2025 00:54
NVIDIA collaborates with the llm-d community to enhance open-source AI inference capabilities, leveraging its Dynamo platform for improved
根据NVIDIA的说法,NVIDIA与LLM-D社区之间的合作将彻底改变生成AI的大规模分布推理。该计划在2025年红帽峰会上首次亮相,旨在通过集成NVIDIA的Dynamo平台来增强开源生态系统。
加速推理数据传输
LLM-D项目着重于利用模型并行性技术,例如张量和管道并行性,以改善节点之间的通信。 With NVIDIA's NIXL, a part of the Dynamo platform, the project enhances data movement across various tiers of memory and storage, crucial for large-scale AI inference.
Prefill and Decode Disaggregation
Traditionally, large language models (LLMs) execute both compute-intensive prefill and memory-heavy decode phases on the same GPU, leading to效率低下。由NVIDIA支持的LLM-D计划将这些阶段跨不同的GPU分开,优化了硬件利用率和性能。
动态GPU资源计划
AI工作负载的动态性质,具有不同的输入和输出序列长度,需要先进的资源计划。与LLM-D变体Autoscaler集成的NVIDIA的Dynamo Planner提供了针对LLM推理量身定制的智能缩放解决方案。
kV cache ofloading
NVIDIA降低了KV缓存的GPU内存的高成本,介绍了Dynamo KV Cache Manager。该工具将较少访问的数据卸载到更负担得起的存储选项,优化资源分配并降低成本。
通过NVIDIA NIM
企业提供优化的AI推断,企业可以从NVIDIA NIM中受益,该NIM可以使高级推理技术集成了安全,高级施用AI的高级推理技术。 NVIDIA NIM在Red Hat OpenShift AI上支持,可确保通过培养开源协作,NVIDIA和RED HAT的目的来简化AI部署和扩展,从而增强了LLM-D社区的功能,从而确保了可靠的AI模型推断。
。鼓励开发人员和研究人员为这些项目在GitHub上的持续开发,塑造开源AI推断的未来。
图像来源:Shutterstock