Släpp lös 90% GPT-4-kvalitet till 80% lägre kostnad med RouteLLM

Frigör 90% av GPT-4-kvalitet till 80% lägre kostnad med RouteLLM, ett öppet källkodssystem för kostnadseffektiv routing av stora språkmodeller. Optimera prestanda och effektivitet med en ny metod som använder preferensdata.

24 februari 2025

Upptäck hur RouteLLM, ett öppen källkod-ramverk, kan minska kostnaderna för att köra stora språkmodeller (LLM) med upp till 80% samtidigt som 95% av prestandan hos GPT-4 bibehålls. Detta innovativa tillvägagångssätt erbjuder en lösning på dilemmat att balansera kostnad och kvalitet vid distribution av LLM, vilket gör AI mer tillgängligt och effektivt.

Den kostnadseffektiva och högpresterande lösningen: RouteLLM
Utnyttja preferensdata för att träna routrar
Utvärdera RouteLLM: Betydande kostnadsbesparingar utan att kompromissa kvaliteten
Demonstrera generaliserbarhet: RouteLLM över olika modellpar
Den större bilden: Varför RouteLLM uppmuntrar mig
Slutsats

Den kostnadseffektiva och högpresterande lösningen: RouteLLM

RouteLLM är ett öppenkällkodssystem som utvecklats av LM.org och erbjuder en kostnadseffektiv lösning för att distribuera stora språkmodeller (LLM) utan att kompromissa med prestandan. Den viktigaste innovationen i RouteLLM är dess förmåga att dirigera frågor till den mest lämpliga LLM, vilket balanserar kostnad och kvalitet.

Ramen hanterar dilemmat som uppstår när LLM distribueras, där användningen av den största och mest kapabla modellen leder till de högsta kvalitetssvaren men kan vara orimligt dyr. RouteLLM löser detta genom att först bearbeta varje fråga genom ett dirigeringssystem som avgör vilken LLM som ska användas. Frågor som kan hanteras av svagare och billigare modeller dirigeras till dessa modeller, medan mer komplexa frågor dirigeras till starkare modeller, vilket minimerar de totala kostnaderna samtidigt som svarskvali teten bibehålls.

Forskarna bakom RouteLLM har visat på betydande kostnadsbesparingar utan att kompromissa med prestandan. Deras experiment visar på kostnadsbesparingar på över 85 % på MT-benchmarken, 45 % på MLU och 35 % på GSMA-K, jämfört med att endast använda den mest kapabla modellen (GPT-4), samtidigt som de fortfarande uppnår 95 % av dess prestanda.

RouteLLM uppnår dessa imponerande resultat genom att utnyttja preferensdata, vilket gör att dirigeringssystemet kan lära sig om olika modellers styrkor och svagheter och hur de relaterar till specifika frågor. Forskarna utforskade olika dirigeringsmetoder, inklusive likhetsvägtad ranking, matrisfattorisering och språkmodellbaserade klassificerare, vilka alla visade betydande förbättringar jämfört med en slumpmässig dirigeringsbaslin när de förstärktes med en LLM-baserad domare.

Dessutom har RouteLLM-ramen visat på generaliserbarhet, eftersom forskarna kunde använda samma dirigerare utan omträning för att dirigera mellan olika modellpar, som CLA-3 Opus och Llama 38B, med liknande kostnadsbesparingar och prestandafördelar.

Utnyttja preferensdata för att träna routrar

Artikeln presenterar ett nytt tillvägagångssätt för att träna dirigerare för stora språkmodeller (LLM), vilket utnyttjar preferensdata. Varje datapunkt i preferensdata består av en prompt och en jämförelse mellan svarskvali teten för två modeller på den prompten. Detta kan vara en vinst för den första modellen, en vinst för den andra modellen eller ett oavgjort.

Att använda preferensdata gör det möjligt för forskarna att lära sig om olika modellers styrkor och svagheter och hur de relaterar till frågor, vilket är effektivt för att träna dirigerare. De tränade fyra olika dirigerare med en blandning av ChatGPT Arena-data och dataaugmentering:

Likhetsvägtad rankningsdirigerare: Denna dirigerare använder en likhetsvägtad rankningsmetod för att avgöra vilken modell frågan ska dirigeras till.
Matrisfattoriseringsmodell: Denna dirigerare använder en matrisfattoriseringsmodell för att lära sig preferenserna mellan modeller och frågor.
BERT-klassificerare: Denna dirigerare använder en BERT-baserad klassificerare för att förutsäga vilken modell som kommer att prestera bättre på en given fråga.
Kausal LLM-klassificerare: Denna dirigerare använder en kausal språkmodellbaserad klassificerare för att förutsäga vilken modell som kommer att prestera bättre på en given fråga.

Forskarna utvärderade prestandan för dessa dirigerare på MT-bench, MLU och GSM8K-benchmarks och fann att de kunde minska kostnaderna betydligt (över 85 % på MT-bench, 45 % på MLU och 35 % på GSM8K) utan att kompromissa med kvaliteten, och uppnådde 95 % av prestandan hos den starkaste modellen (GPT-4).

Viktigt är att forskarna också visade på generaliserbar heten i deras ram genom att använda samma dirigerare (utan omträning) för att dirigera mellan ett annat modellpar (CLA 3 Opus och Llama 38B) och uppnådde liknande förbättringar i kostnadseffektivitet.

Utvärdera RouteLLM: Betydande kostnadsbesparingar utan att kompromissa kvaliteten

Forskarna utvärderade RouteLLM med hjälp av offentliga data från ChatAO och visade på betydande kostnadsbesparingar utan att kompromissa med kvaliteten:

På MT-benchmarken uppnådde de över 85 % kostnadsbesparingar jämfört med att endast använda GPT-4, samtidigt som de uppnådde 95 % av dess prestanda.
På MLU-benchmarken uppnådde de 45 % kostnadsbesparingar.
På GSM8K-benchmarken uppnådde de 35 % kostnadsbesparingar.

Utvärderingen fokuserade på fallet där det finns två modeller - en starkare, dyrare modell (GPT-4) och en svagare, billigare modell (Megatron-LM 8x7B). Forskarna använde en slumpmässig dirigerare som baslinjen och utforskade olika dirigeringsmetoder, inklusive att förstärka träningsdata med en LLM-baserad domare.

Resultaten visar att de förstärkta dirigeringsmetoderna presterade betydligt bättre än den slumpmässiga dirigeraren. Forskarna visade också på generaliserbar heten i deras ram genom att använda samma dirigerare för att dirigera mellan ett annat modellpar (CLA-3 Opus och LLaMA 38B) utan någon omträning, och uppnådde liknande förbättringar i kostnadsbesparingar.

Nyckel n till RouteLLMs framgång är dess förmåga att lära sig olika modellers styrkor och svagheter och dirigera frågor därefter, vilket minimerar användningen av den dyrare modellen samtidigt som höga svarskvali tet bibehålls. Detta tillvägagångssätt överensstämmer med forskarnas vision om en hybrid LLM-stack som kombinerar lokala, öppenkällkods modeller med frontmodeller som GPT-4, optimerad för kostnad, effektivitet, integritet och säkerhet.

Demonstrera generaliserbarhet: RouteLLM över olika modellpar

Medan de inledande utvärderingarna av RouteLLM genomfördes med GPT-4- och Megatron-LM 8x7B-modellparet, ville forskarna också visa på generaliserbar heten i deras ram. För att göra detta presenterade de resultat för MT-Bench-benchmarken när de dirigerade mellan ett annat modellpar: den dyrare och mer kapabla Chinchilla 3 Opus-modellen och den billigare Llama 38B-modellen.

Viktigt är att forskarna använde samma dirigerare utan någon omträning, vilket visar på RouteLLMs förmåga att generalisera till nya modellkombinationer. Resultaten visade att RouteLLM-tillvägagångssättet fortsatte att ge betydande kostnadsbesparingar samtidigt som hög prestanda bibehölls, även när det tillämpades på detta nya modellpar.

Denna generaliseringsförmåga är en nyckelstyrka hos RouteLLM-ramen, eftersom den gör att systemet kan distribueras över en mängd olika stora språkmodellkonfigurationer utan behov av omfattande omträning eller modellspecifik finjustering. Genom att visa på effektiviteten hos RouteLLM över olika modellpar har forskarna betonat den breda tillämpbarheten och robustheten hos deras tillvägagångssätt för kostnadseffektiv distribution av LLM.

Den större bilden: Varför RouteLLM uppmuntrar mig

Jag är entusiastisk över RouteLLM av flera nyckelskäl:

Kostnadsreduktion: Om vi kan minska kostnaderna för att använda stora språkmodeller (LLM), kommer det att ha omfattande fördelar. Det kommer att göra det möjligt för fler människor och applikationer att dra nytta av AI, samtidigt som mindre energi förbrukas i processen.
Algoritmiska genombrott: Tekniker som Mixture of Experts och Chain of Thought använder fler tokens, så att ha billigare tokens möjliggör att vi kan använda dessa kraftfulla algoritmiska genombrott oftare, vilket leder till högre kvalitetsresultat.
Effektiv AI-användning: RouteLLMs tillvägagångssätt att dirigera frågor till den mest lämpliga modellen, oavsett om den är lokal eller molnbaserad, optimerar för kostnad, effektivitet och kvalitet. Detta skjuter mer beräkning till lokala/kantenhetenheter, vilket minskar beroendet av dyra molnmodeller.
Öppenkällkodstillgänglighet: Författarna har släppt den fullständiga öppenkällkodskoden, vilket alltid är spännande att se. Detta gör det möjligt för gemenskapen att bygga vidare på och förbättra ramen.

Sammanfattningsvis representerar RouteLLM ett betydande steg mot att göra stora språkmodeller mer tillgängliga, effektiva och kostnadseffektiva. Detta överensstämmer med den bredare visionen om ett AI-ekosystem som utnyttjar en kombination av lokala modeller, agentbaserade system och frontmodeller, samordnade för att leverera den bästa balansen mellan kvalitet, kostnad, integritet och säkerhet.

FAQ

Vad är RouteLLM?

Hur fungerar RouteLLM?

Vilka är de viktigaste fördelarna med RouteLLM?

Vilka tekniker använder RouteLLM?

Hur kan jag prova RouteLLM?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder