Libérez une qualité de 90% de GPT-4 à 80% moins de coût avec RouteLLM

Libérez une qualité de 90% de GPT-4 à 80% moins de coût avec RouteLLM, un cadre open source pour le routage rentable des modèles de langue de grande taille. Optimisez les performances et l'efficacité avec une approche novatrice utilisant des données de préférence.

15 février 2025

party-gif

Découvrez comment RouteLLM, un cadre open-source, peut réduire considérablement le coût d'exécution des modèles de langage à grande échelle (LLM) jusqu'à 80% tout en maintenant 95% des performances de GPT-4. Cette approche innovante offre une solution au dilemme de l'équilibre entre le coût et la qualité lors du déploiement des LLM, rendant l'IA plus accessible et plus efficace.

La solution rentable et performante : RouteLLM

RouteLLM est un cadre open source développé par LM.org qui offre une solution rentable pour déployer des modèles de langage à grande échelle (LLM) sans compromettre les performances. L'innovation clé de RouteLLM est sa capacité à acheminer les requêtes vers le LLM le plus approprié, équilibrant le coût et la qualité.

Le cadre s'attaque au dilemme rencontré lors du déploiement des LLM, où l'utilisation du modèle le plus grand et le plus capable entraîne les meilleures réponses mais peut être prohibitivement coûteuse. RouteLLM résout ce problème en traitant d'abord chaque requête à travers un système de routage qui décide du LLM à utiliser. Les requêtes qui peuvent être gérées par des modèles plus faibles et moins coûteux sont acheminées vers ces modèles, tandis que les requêtes plus complexes sont acheminées vers des modèles plus puissants, minimisant ainsi les coûts globaux tout en maintenant la qualité des réponses.

Les chercheurs derrière RouteLLM ont démontré des réductions de coûts significatives sans compromettre les performances. Leurs expériences montrent des économies de coûts de plus de 85% sur le benchmark MT, 45% sur MLU et 35% sur GSMA-K, par rapport à l'utilisation du modèle le plus capable (GPT-4), tout en atteignant 95% de ses performances.

RouteLLM obtient ces résultats impressionnants en tirant parti des données de préférence, ce qui permet au système de routage d'apprendre les forces et les faiblesses des différents modèles et leur relation avec des requêtes spécifiques. Les chercheurs ont exploré diverses techniques de routage, notamment le classement pondéré par la similarité, la factorisation de matrice et les classificateurs basés sur les modèles de langage, qui ont tous montré des améliorations significatives par rapport à une référence de routage aléatoire lorsqu'ils sont complétés par un juge basé sur un LLM.

De plus, le cadre RouteLLM a démontré sa généralisation, car les chercheurs ont pu utiliser les mêmes routeurs sans les réentraîner pour acheminer entre différentes paires de modèles, comme CLA-3 Opus et Llama 38B, avec des économies de coûts et des avantages de performance similaires.

Dans l'ensemble, RouteLLM représente un développement passionnant dans le domaine du déploiement de modèles de langage à grande échelle, offrant une solution rentable et performante qui peut ouvrir de nouvelles possibilités pour les applications d'IA et repousser les limites de ce qui est réalisable avec les LLM.

Exploiter les données de préférence pour former des routeurs

Le document présente une nouvelle approche pour l'entraînement des routeurs pour le routage des modèles de langage à grande échelle (LLM), qui tire parti des données de préférence. Chaque point de données dans les données de préférence se compose d'une invite et d'une comparaison entre la qualité de la réponse de deux modèles sur cette invite. Cela pourrait être une victoire pour le premier modèle, une victoire pour le deuxième modèle ou une égalité.

L'utilisation des données de préférence permet aux chercheurs d'apprendre les forces et les faiblesses des différents modèles et leur relation avec les requêtes, ce qui est efficace pour l'entraînement des routeurs. Ils ont entraîné quatre routeurs différents en utilisant un mélange de données ChatGPT Arena et d'augmentation de données :

  1. Routeur de classement pondéré par la similarité : Ce routeur utilise une approche de classement pondéré par la similarité pour déterminer quel modèle acheminer la requête.
  2. Modèle de factorisation de matrice : Ce routeur utilise un modèle de factorisation de matrice pour apprendre les préférences entre les modèles et les requêtes.
  3. Classificateur BERT : Ce routeur utilise un classificateur basé sur BERT pour prédire quel modèle aura de meilleures performances sur une requête donnée.
  4. Classificateur de LLM causal : Ce routeur utilise un classificateur basé sur un modèle de langage causal pour prédire quel modèle aura de meilleures performances sur une requête donnée.

Les chercheurs ont évalué les performances de ces routeurs sur les benchmarks MT, MLU et GSM8K, et ont constaté qu'ils pouvaient réduire considérablement les coûts (plus de 85% sur le benchmark MT, 45% sur MLU et 35% sur GSM8K) sans compromettre la qualité, atteignant 95% des performances du modèle le plus puissant (GPT-4).

Il est important de noter que les chercheurs ont également démontré la généralisation de leur cadre en utilisant les mêmes routeurs (sans réentraînement) pour acheminer entre une paire de modèles différente (CLA 3 Opus et Llama 38B) et ont obtenu des améliorations similaires en termes de rentabilité.

Évaluer RouteLLM : des économies de coûts importantes sans compromettre la qualité

Les chercheurs ont évalué RouteLLM à l'aide de données publiques de ChatAO et ont démontré des réductions de coûts significatives sans compromettre la qualité :

  • Sur le benchmark MT, ils ont atteint une réduction de coûts de plus de 85% par rapport à l'utilisation de GPT-4 uniquement, tout en atteignant 95% de ses performances.
  • Sur le benchmark MLU, ils ont atteint une réduction de coûts de 45%.
  • Sur le benchmark GSM8K, ils ont atteint une réduction de coûts de 35%.

L'évaluation s'est concentrée sur le cas où il y a deux modèles - un modèle plus fort et plus coûteux (GPT-4) et un modèle plus faible et moins coûteux (Megatron-LM 8x7B). Les chercheurs ont utilisé un routeur aléatoire comme référence et ont exploré diverses techniques de routage, notamment en complétant les données d'entraînement avec un juge basé sur un LLM.

Les résultats montrent que les techniques de routage augmentées ont nettement surpassé le routeur aléatoire. Les chercheurs ont également démontré la généralisation de leur cadre en utilisant les mêmes routeurs pour acheminer entre une paire de modèles différente (CLA-3 Opus et LLaMA 38B) sans aucun réentraînement, et ont obtenu des améliorations similaires en termes d'économies de coûts.

La clé du succès de RouteLLM est sa capacité à apprendre les forces et les faiblesses des différents modèles et à acheminer les requêtes en conséquence, minimisant l'utilisation du modèle le plus coûteux tout en maintenant des réponses de haute qualité. Cette approche s'aligne sur la vision des chercheurs d'une pile LLM hybride qui combine des modèles locaux et open source avec des modèles de pointe comme GPT-4, optimisés pour le coût, l'efficacité, la confidentialité et la sécurité.

Démontrer la généralisation : RouteLLM à travers différentes paires de modèles

Bien que les évaluations initiales de RouteLLM aient été menées à l'aide de la paire de modèles GPT-4 et Megatron-LM 8x7B, les chercheurs ont également voulu démontrer la généralisation de leur cadre. Pour ce faire, ils ont présenté les résultats pour le benchmark MT-Bench lors du routage entre une paire de modèles différente : le modèle Chinchilla 3 Opus plus coûteux et plus capable, et le modèle Llama 38B moins coûteux.

Il est important de noter que les chercheurs ont utilisé les mêmes routeurs sans aucun réentraînement, montrant ainsi la capacité de RouteLLM à se généraliser à de nouvelles combinaisons de modèles. Les résultats ont montré que l'approche RouteLLM continuait à offrir des économies de coûts importantes tout en maintenant des performances élevées, même lorsqu'elle était appliquée à cette nouvelle paire de modèles.

Cette capacité de généralisation est un point fort du cadre RouteLLM, car elle permet au système d'être déployé sur une variété de configurations de modèles de langage à grande échelle sans nécessiter de rééducation ou de réglage spécifique au modèle. En démontrant l'efficacité de RouteLLM sur différentes paires de modèles, les chercheurs ont mis en évidence l'applicabilité générale et la robustesse de leur approche pour un déploiement rentable des LLM.

Le tableau d'ensemble : pourquoi RouteLLM m'enthousiasme

Je suis enthousiaste à propos de RouteLLM pour quelques raisons clés :

  1. Réduction des coûts : Si nous pouvons réduire le coût de l'utilisation des modèles de langage à grande échelle (LLM), cela aura des avantages généralisés. Cela permettra à plus de personnes et d'applications de tirer parti de l'IA, en utilisant moins d'énergie dans le processus.

  2. Déblocages algorithmiques : Des techniques comme Mixture of Experts et Chain of Thought utilisent plus de jetons, donc avoir des jetons moins coûteux nous permet d'utiliser ces puissants déblocages algorithmiques plus souvent, conduisant à des résultats de meilleure qualité.

  3. Utilisation efficace de l'IA : L'approche de RouteLLM qui consiste à acheminer les requêtes vers le modèle le plus approprié, qu'il soit local ou basé sur le cloud, optimise le coût, l'efficacité et la qualité. Cela pousse plus de calcul vers les appareils locaux/périphériques, réduisant la dépendance aux modèles cloud coûteux.

  4. Disponibilité open source : Les auteurs ont publié la base de code open source complète, ce qui est toujours passionnant à voir. Cela permet à la communauté de s'appuyer sur le cadre et de l'améliorer.

Dans l'ensemble, RouteLLM représente une étape importante vers la rendre les modèles de langage à grande échelle plus accessibles, efficaces et rentables. Cela s'aligne avec la vision plus large d'un écosystème IA qui tire parti d'une combinaison de modèles locaux, de systèmes à base d'agents et de modèles de pointe, orchestrés pour offrir le meilleur équilibre entre qualité, coût, confidentialité et sécurité.

Conclusion

L'introduction de Route LLM par LM.org est un développement passionnant dans le domaine des modèles de langage à grande échelle (LLM). En fournissant un cadre open source pour le routage rentable des LLM, Route LLM promet de réduire considérablement le coût de l'exécution des LLM tout en maintenant un niveau de performance élevé.

Les principaux points forts de Route LLM incluent :

  • Capacité de réduire les coûts des LLM jusqu'à 80% tout en maintenant 95% des performances de GPT-4.
  • Utilisation d'un système de routage qui décide quel LLM utiliser pour chaque requête, en acheminant les requêtes qui peuvent être gérées par des modèles plus faibles vers ces modèles pour minimiser les coûts.
  • Exploration de diverses techniques de routage, notamment le classement pondéré par la similarité, la factorisation de matrice et les classificateurs basés sur les transformateurs, pour améliorer les performances du routeur.
  • Démonstration de la généralisation du cadre en le testant avec différentes paires de modèles, comme CLA-3 Opus et Llama 38B.

L'impact potentiel de Route LLM est important, car il pourrait permettre une adoption plus large des LLM en réduisant les barrières financières à l'entrée. De plus, la capacité de s'appuyer sur des modèles moins coûteux et des techniques algorithmiques comme le mélange d'experts et la chaîne de pensée pourrait conduire à des résultats encore de meilleure qualité.

Dans l'ensemble, la sortie de Route LLM par LM.org est une étape importante pour rendre les LLM plus accessibles et rentables, ouvrant la voie à de nouvelles avancées dans le domaine de l'intelligence artificielle.

FAQ