开源AI:代理对齐的混合物彻底改变了LLMS的培训后培训
Open-Source AI: Mixture-of-Agents Alignment Revolutionizes Post-Training for LLMs
Felix Pinkston May 29, 2025 09:46
Mixture-of-Agents Alignment (MoAA) is a groundbreaking post-training method that enhances large language models by在新的ICML 2025论文中详细介绍的开源集体智能。
代理的混合物(MOAA)代表了人工智能领域的显着进步,尤其是优化了最近的ICML 20255论文中的大型语言模型(LLMS)的性能(LLMS)。据一起,MOAA是创新的训练后培训利用开源LLM的集体智能以实现有效的模型性能的方法。
MOAA
介绍的介绍是在混合代理(MOA)方法基础上构建的,该方法以前在聊天任务中超过了GPT-4O,MOAA将其综合为单个单个模型。该方法通过将多个模型的集体智能提炼成更紧凑,更有效的形式。
性能增强
MOAA通过将多种模型的集体智能提炼为以前与MOA相关的高度计算成本和建筑复杂性。这是在保持较小模型的成本效益和效率优势的同时实现的。实际上,MOAA开发的模型已经针对更大的模型显示了竞争性能,这突显了开源开发的潜力i。
实验验证
在实验设置中,MOAA在包括Alpacaeval 2,Arena-Hard和Mt Bench在内的几个比对基准上进行了测试。这些基准涉及与GPT-4的直接响应比较,以确保一致和高质量的评估。结果表明,使用MOAA方法进行微调的模型表现出显着的性能提高,即使表现优于使用GPT-4O(例如GPT-4O)训练的模型。
成本效益
在成本方面,MOAA提供了使用封闭式销售模型的更经济的替代方案。例如,使用MOAA生成超反馈子集需要366美元,而GPT-4O则为429美元,代表降低15%的成本,同时实现出色的性能。
直接偏好优化
MOAA MOAA通过直接优化(DPO)的模型来增强模型的模型,从而进一步增强了模型的模型,从而启用了模型的模型。这种方法显着即兴ES在经过监督微调(SFT)训练的模型的性能上,证明了MOAA在偏好对齐方面的功效。
自我改进管道
MOAA的引入铺平了自我改进的AI开发管道的方式。通过集成MOAA生成的数据,即使MOA组合中最强的模型也可以实现大量的性能提升,这表明在不依赖更强大的LLMS的情况下,可以进行持续的改进。
。开发。
图像来源:shutterstock