以80%的成本释放90%的GPT-4质量,尽享RouteLLM

使用 RouteLLM 这个开源框架,以 80% 更低的成本实现 90% 的 GPT-4 质量。这种新颖的方法利用偏好数据来优化性能和效率。

2025年4月23日

发现 RouteLLM 这个开源框架如何能够在保持 GPT-4 95% 性能的同时,将运行大型语言模型 (LLM) 的成本降低高达 80%。这种创新方法为在部署 LLM 时平衡成本和质量的困境提供了解决方案,使 AI 更加可访问和高效。

高性价比的解决方案:RouteLLM
利用偏好数据训练路由器
评估RouteLLM:在不牺牲质量的情况下实现显著的成本节省
展示广泛适用性:RouteLLM适用于不同的模型对
更大的画面:为什么RouteLLM让我兴奋
结论

高性价比的解决方案:RouteLLM

RouteLLM是LM.org开发的一个开源框架,提供了一种成本效益高的部署大型语言模型(LLM)的解决方案,而不会影响性能。RouteLLM的关键创新在于它能够将查询路由到最合适的LLM,从而平衡成本和质量。

该框架解决了部署LLM时面临的困境,即使用最大和最强大的模型会带来最高质量的响应,但成本可能过高。RouteLLM通过首先将每个查询通过路由系统进行处理,决定使用哪个LLM来解决这个问题。可以由较弱和较便宜的模型处理的查询被路由到这些模型,而更复杂的查询被路由到更强大的模型,从而在保持响应质量的同时最大限度地降低总体成本。

RouteLLM背后的研究人员已经证明,在不影响性能的情况下实现了显著的成本降低。他们的实验结果显示,与仅使用最强大的模型(GPT-4)相比,在MT基准测试上节省了超过85%的成本,在MLU上节省了45%,在GSMA-K上节省了35%,同时仍然达到了95%的性能。

RouteLLM通过利用偏好数据实现了这些令人印象深刻的结果,这使路由系统能够学习不同模型的优缺点以及它们与特定查询的关系。研究人员探索了各种路由技术,包括基于相似度加权排名、矩阵分解和基于语言模型的分类器,所有这些技术在结合LLM为基础的评判器后,都显示出明显优于随机路由基线的改进。

此外,RouteLLM框架还展示了良好的通用性,研究人员能够在不需要重新训练的情况下使用相同的路由器在不同的模型对(如CLA-3 Opus和Llama 38B)之间进行路由,并获得类似的成本节省和性能收益。

总的来说,RouteLLM代表了大型语言模型部署领域的一个令人兴奋的发展,提供了一种成本效益高且性能出色的解决方案,可以为AI应用程序开辟新的可能性,并推动LLM的边界。

利用偏好数据训练路由器

本文提出了一种利用偏好数据训练大型语言模型(LLM)路由器的新方法。每个偏好数据点由一个提示和两个模型在该提示上的响应质量比较组成,可以是第一个模型获胜、第二个模型获胜或平局。

使用偏好数据可以让研究人员了解不同模型的优缺点以及它们与查询的关系,这对于训练路由器非常有效。他们使用ChatGPT Arena数据和数据增强的混合方式训练了四种不同的路由器:

基于相似度加权排名的路由器:该路由器使用基于相似度加权排名的方法来确定将查询路由到哪个模型。
矩阵分解模型:该路由器使用矩阵分解模型来学习模型之间以及模型与查询之间的偏好。
BERT分类器:该路由器使用基于BERT的分类器来预测哪个模型在给定查询上的表现会更好。
因果LLM分类器:该路由器使用基于因果语言模型的分类器来预测哪个模型在给定查询上的表现会更好。

研究人员评估了这些路由器在MT基准、MLU和GSM8K基准上的性能,发现他们可以在不影响质量的情况下显著降低成本(在MT基准上超过85%,在MLU上45%,在GSM8K上35%),达到最强模型(GPT-4)性能的95%。

重要的是,研究人员还展示了该框架的通用性,他们在不需要重新训练的情况下使用相同的路由器在不同的模型对(CLA 3 Opus和Llama 38B)之间进行路由,并获得了类似的成本效益改善。

评估RouteLLM:在不牺牲质量的情况下实现显著的成本节省

研究人员使用来自ChatAO的公开数据评估了RouteLLM,并证明了在不影响质量的情况下实现了显著的成本降低:

在MT基准测试中,与仅使用GPT-4相比,他们实现了超过85%的成本节省,同时仍达到了95%的性能。
在MLU基准测试中,他们实现了45%的成本节省。
在GSM8K基准测试中,他们实现了35%的成本节省。

评估集中在只有两个模型的情况下,一个更强大、更昂贵的模型(GPT-4)和一个更弱、更便宜的模型(Megatron-LM 8x7B)。研究人员使用随机路由器作为基线,并探索了各种路由技术,包括使用基于LLM的评判器增强训练数据。

结果表明,增强的路由技术明显优于随机路由器。研究人员还展示了该框架的通用性,他们在不需要重新训练的情况下使用相同的路由器在不同的模型对(CLA-3 Opus和LLaMA 38B)之间进行路由,并获得了类似的成本节省改善。

RouteLLM成功的关键在于它能够学习不同模型的优缺点,并相应地路由查询,最大限度地减少使用更昂贵的模型,同时保持高质量的响应。这种方法与研究人员构建结合本地、开源模型和前沿模型(如GPT-4)的混合LLM堆栈的愿景相一致,以优化成本、效率、隐私和安全性。

展示广泛适用性:RouteLLM适用于不同的模型对

虽然RouteLLM的初始评估是使用GPT-4和Megatron-LM 8x7B模型对进行的,但研究人员也想展示该框架的通用性。为此,他们在MT-Bench基准上提供了在Chinchilla 3 Opus模型和Llama 38B模型之间进行路由的结果。

重要的是,研究人员在不需要重新训练的情况下使用了相同的路由器,展示了RouteLLM能够推广到新的模型组合的能力。结果表明,即使应用于这个新的模型对,RouteLLM方法仍然能够提供显著的成本节省,同时保持高性能。

这种推广能力是RouteLLM框架的一个关键优势,因为它允许该系统在不需要广泛重新训练或模型特定调整的情况下部署在各种大型语言模型配置上。通过展示RouteLLM在不同模型对上的有效性,研究人员突出了其方法在成本效益LLM部署方面的广泛适用性和稳健性。

更大的画面:为什么RouteLLM让我兴奋

我对RouteLLM感到非常兴奋,主要有以下几个原因:

成本降低:如果我们能够降低使用大型语言模型(LLM)的成本,这将带来广泛的好处。它将允许更多的人和应用程序利用AI,同时使用更少的能源。
算法突破:专家混合和思维链等技术使用更多的令牌,因此拥有更便宜的令牌可以让我们更频繁地使用这些强大的算法突破,从而获得更高质量的结果。
高效的AI使用:RouteLLM将查询路由到最合适的模型(无论是本地还是基于云的)的方法,可以优化成本、效率和质量。这将更多的计算转移到本地/边缘设备,减少对昂贵云模型的依赖。
开源可用性:作者已经发布了完整的开源代码库,这总是令人兴奋的。这允许社区在此基础上进行构建和改进。

总的来说,RouteLLM代表了使大型语言模型更加可访问、高效和具有成本效益的重要一步。这与构建一个结合本地模型、代理系统和前沿模型的AI生态系统的更广泛愿景相一致,以提供最佳的质量、成本、隐私和安全性平衡。

结论

LM.org推出的RouteLLM是大型语言模型(LLM)领域的一个令人兴奋的发展。通过提供一个成本效益高的LLM路由开源框架,RouteLLM承诺在保持高性能的同时大幅降低运行LLM的成本。

RouteLLM的主要亮点包括:

能够在保持GPT-4性能的95%的情况下将LLM成本降低高达80%。
利用路由系统决定使用哪个LLM来处理每个查询,将可由较弱模型处理的查询路由到这些模型,以最大限度地降低成本。
探索各种路由技术,包括基于相似度加权排名、矩阵分解和基于Transformer的分类器,以提高路由器性能。
通过测试不同的模型对(如CLA-3 Opus和Llama 38B)展示了该框架的通用性。

RouteLLM的潜在影响是重大的,因为它可以通过降低使用LLM的财务障碍来促进更广泛的采用。此外,利用更便宜的模型和专家混合、思维链等算法技术,可能会带来更高质量的结果。

总的来说,LM.org发布RouteLLM是在使LLM更加可访问和具有成本效益方面取得的重要进步,为人工智能领域的进一步发展铺平了道路。

FAQ

什么是RouteLLM?

RouteLLM如何工作?

RouteLLM的主要优势是什么?

RouteLLM使用哪些技术?

我如何尝试使用RouteLLM?

Create Your AI Girlfriend

Create and chat with your dream AI Girlfriend