Sblocca la qualità del 90% di GPT-4 con l'80% di costi in meno con RouteLLM

Sblocca la qualità del 90% di GPT-4 con l'80% di costo in meno con RouteLLM, un framework open-source per il routing di modelli linguistici su larga scala a costi contenuti. Ottimizza le prestazioni e l'efficienza con un approccio innovativo che utilizza i dati di preferenza.

23 febbraio 2025

party-gif

Scopri come RouteLLM, un framework open-source, può ridurre significativamente il costo di esecuzione di modelli di linguaggio su larga scala (LLM) fino all'80%, mantenendo il 95% delle prestazioni di GPT-4. Questo approccio innovativo offre una soluzione al dilemma di bilanciare costo e qualità quando si implementano gli LLM, rendendo l'AI più accessibile ed efficiente.

La soluzione conveniente e ad alte prestazioni: RouteLLM

RouteLLM è un framework open-source sviluppato da LM.org che offre una soluzione conveniente per distribuire modelli di linguaggio su larga scala (LLM) senza compromettere le prestazioni. L'innovazione chiave di RouteLLM è la sua capacità di indirizzare le query al modello LLM più appropriato, bilanciando costo e qualità.

Il framework affronta il dilemma che si presenta quando si distribuiscono LLM, dove l'utilizzo del modello più grande e più capace porta alle risposte di qualità più elevata ma può essere proibitivamente costoso. RouteLLM risolve questo problema elaborando prima ogni query attraverso un sistema di routing che decide quale LLM utilizzare. Le query che possono essere gestite da modelli più deboli e più economici vengono indirizzate a questi modelli, mentre le query più complesse vengono indirizzate a modelli più forti, minimizzando i costi complessivi pur mantenendo la qualità delle risposte.

I ricercatori dietro RouteLLM hanno dimostrato riduzioni significative dei costi senza compromettere le prestazioni. I loro esperimenti mostrano risparmi di costi superiori all'85% sul benchmark MT, del 45% su MLU e del 35% su GSMA-K, rispetto all'utilizzo del solo modello più capace (GPT-4), raggiungendo comunque il 95% delle sue prestazioni.

RouteLLM raggiunge questi risultati impressionanti sfruttando i dati di preferenza, che consentono al sistema di routing di apprendere i punti di forza e di debolezza dei diversi modelli e il loro rapporto con le query specifiche. I ricercatori hanno esplorato varie tecniche di routing, tra cui ranking ponderato per similarità, fattorizzazione di matrici e classificatori basati su modelli di linguaggio, che hanno mostrato miglioramenti significativi rispetto a un routing casuale quando integrati con un giudice basato su LLM.

Inoltre, il framework RouteLLM ha dimostrato la sua generalizzabilità, in quanto i ricercatori sono stati in grado di utilizzare gli stessi router senza dover effettuare un nuovo addestramento per indirizzare tra coppie di modelli diversi, come CLA-3 Opus e Llama 38B, ottenendo risparmi di costi e benefici di prestazioni simili.

Complessivamente, RouteLLM rappresenta uno sviluppo entusiasmante nel campo della distribuzione di modelli di linguaggio su larga scala, offrendo una soluzione conveniente e ad alte prestazioni che può sbloccare nuove possibilità per le applicazioni di intelligenza artificiale e spingere i confini di ciò che è realizzabile con gli LLM.

Sfruttare i dati di preferenza per addestrare i router

Il documento presenta un approccio innovativo per l'addestramento di router per il routing di modelli di linguaggio su larga scala (LLM), che sfrutta i dati di preferenza. Ogni punto dati nei dati di preferenza consiste in un prompt e in un confronto tra la qualità della risposta di due modelli su quel prompt. Questo può essere una vittoria per il primo modello, una vittoria per il secondo modello o un pareggio.

L'utilizzo dei dati di preferenza consente ai ricercatori di apprendere i punti di forza e di debolezza dei diversi modelli e il loro rapporto con le query, il che è efficace per l'addestramento dei router. Hanno addestrato quattro diversi router utilizzando una combinazione di dati ChatGPT Arena e di data augmentation:

  1. Router di ranking ponderato per similarità: Questo router utilizza un approccio di ranking ponderato per similarità per determinare quale modello indirizzare la query.
  2. Modello di fattorizzazione di matrici: Questo router utilizza un modello di fattorizzazione di matrici per apprendere le preferenze tra modelli e query.
  3. Classificatore BERT: Questo router utilizza un classificatore basato su BERT per prevedere quale modello avrà prestazioni migliori su una determinata query.
  4. Classificatore LLM causale: Questo router utilizza un classificatore basato su un modello di linguaggio causale per prevedere quale modello avrà prestazioni migliori su una determinata query.

I ricercatori hanno valutato le prestazioni di questi router sui benchmark MT, MLU e GSM8K, e hanno riscontrato che potevano ridurre significativamente i costi (oltre l'85% su MT bench, 45% su MLU e 35% su GSM8K) senza compromettere la qualità, raggiungendo il 95% delle prestazioni del modello più forte (GPT-4).

Importante, i ricercatori hanno anche dimostrato la generalizzabilità del loro framework utilizzando gli stessi router (senza riaddestrare) per indirizzare tra una coppia di modelli diversa (CLA 3 Opus e Llama 38B) e ottenendo miglioramenti simili in termini di convenienza dei costi.

Valutazione di RouteLLM: significativi risparmi di costi senza compromettere la qualità

I ricercatori hanno valutato RouteLLM utilizzando dati pubblici di ChatAO e hanno dimostrato riduzioni significative dei costi senza compromettere la qualità:

  • Sul benchmark MT, hanno ottenuto oltre l'85% di riduzione dei costi rispetto all'utilizzo del solo GPT-4, raggiungendo comunque il 95% delle sue prestazioni.
  • Sul benchmark MLU, hanno ottenuto una riduzione dei costi del 45%.
  • Sul benchmark GSM8K, hanno ottenuto una riduzione dei costi del 35%.

La valutazione si è concentrata sul caso in cui ci sono due modelli - un modello più forte e più costoso (GPT-4) e un modello più debole e più economico (Megatron-LM 8x7B). I ricercatori hanno utilizzato un router casuale come riferimento e hanno esplorato varie tecniche di routing, inclusa l'integrazione dei dati di addestramento con un giudice basato su LLM.

I risultati mostrano che le tecniche di routing migliorate hanno superato significativamente il router casuale. I ricercatori hanno anche dimostrato la generalizzabilità del loro framework utilizzando gli stessi router per indirizzare tra una coppia di modelli diversa (CLA-3 Opus e LLaMA 38B) senza alcun riaddestramento, ottenendo miglioramenti simili in termini di risparmio dei costi.

Il segreto del successo di RouteLLM è la sua capacità di apprendere i punti di forza e di debolezza dei diversi modelli e di indirizzare di conseguenza le query, minimizzando l'utilizzo del modello più costoso pur mantenendo risposte di alta qualità. Questo approccio si allinea con la visione dei ricercatori di una pila ibrida di LLM che combina modelli locali e open-source con modelli all'avanguardia come GPT-4, ottimizzati per costo, efficienza, privacy e sicurezza.

Dimostrare la generalizzabilità: RouteLLM attraverso diverse coppie di modelli

Mentre le valutazioni iniziali di RouteLLM sono state condotte utilizzando la coppia di modelli GPT-4 e Megatron-LM 8x7B, i ricercatori hanno anche voluto dimostrare la generalizzabilità del loro framework. Per fare questo, hanno presentato i risultati per il benchmark MT-Bench quando si indirizza tra una coppia di modelli diversa: il modello Chinchilla 3 Opus, più costoso e capace, e il modello Llama 38B, meno costoso.

Importante, i ricercatori hanno utilizzato gli stessi router senza alcun riaddestramento, mostrando la capacità di RouteLLM di generalizzarsi a nuove combinazioni di modelli. I risultati hanno mostrato che l'approccio RouteLLM ha continuato a fornire significativi risparmi di costi mantenendo elevate prestazioni, anche quando applicato a questa nuova coppia di modelli.

Questa capacità di generalizzazione è un punto di forza chiave del framework RouteLLM, in quanto consente al sistema di essere distribuito attraverso una varietà di configurazioni di modelli di linguaggio su larga scala senza la necessità di un riaddestramento estensivo o di una sintonizzazione specifica per il modello. Dimostrando l'efficacia di RouteLLM attraverso diverse coppie di modelli, i ricercatori hanno evidenziato l'ampia applicabilità e la robustezza del loro approccio per una distribuzione conveniente di LLM.

Il quadro generale: perché RouteLLM mi entusiasma

Sono entusiasta di RouteLLM per alcuni motivi chiave:

  1. Riduzione dei costi: Se possiamo ridurre il costo dell'utilizzo di modelli di linguaggio su larga scala (LLM), avrà benefici diffusi. Permetterà a più persone e applicazioni di sfruttare l'intelligenza artificiale, utilizzando meno energia nel processo.

  2. Sbloccaggi algoritmici: Tecniche come Mixture of Experts e Chain of Thought utilizzano più token, quindi avere token più economici ci consente di utilizzare più spesso questi potenti sbloccaggi algoritmici, portando a risultati di qualità superiore.

  3. Utilizzo efficiente dell'IA: L'approccio di RouteLLM di indirizzare le query al modello più appropriato, sia locale che basato sul cloud, ottimizza per costo, efficienza e qualità. Questo sposta più calcolo sui dispositivi locali/edge, riducendo la dipendenza dai costosi modelli cloud.

  4. Disponibilità open-source: Gli autori hanno rilasciato l'intero codice sorgente open-source, il che è sempre entusiasmante da vedere. Questo consente alla comunità di costruire e migliorare il framework.

Complessivamente, RouteLLM rappresenta un passo significativo verso la resa dei modelli di linguaggio su larga scala più accessibili, efficienti e convenienti. Questo si allinea con la visione più ampia di un ecosistema di intelligenza artificiale che sfrutta una combinazione di modelli locali, sistemi basati su agenti e modelli all'avanguardia, orchestrati per offrire il miglior equilibrio tra qualità, costo, privacy e sicurezza.

Conclusione

L'introduzione di Route LLM da parte di LM.org è uno sviluppo entusiasmante nel campo dei modelli di linguaggio su larga scala (LLM). Fornendo un framework open-source per il routing conveniente di LLM, Route LLM promette di ridurre significativamente il costo di esecuzione degli LLM mantenendo un alto livello di prestazioni.

I principali punti salienti di Route LLM includono:

  • Capacità di ridurre i costi degli LLM fino all'80% mantenendo il 95% delle prestazioni di GPT-4.
  • Utilizzo di un sistema di routing che decide quale LLM utilizzare per ogni query, indirizzando le query che possono essere gestite da modelli più deboli a tali modelli per minimizzare i costi.
  • Esplorazione di varie tecniche di routing, tra cui ranking ponderato per similarità, fattorizzazione di matrici e classificatori basati su Transformer, per migliorare le prestazioni del router.
  • Dimostrazione della generalizzabilità del framework testando con diverse coppie di modelli, come CLA-3 Opus e Llama 38B.

L'impatto potenziale di Route LLM è significativo, in quanto potrebbe consentire una diffusione più ampia degli LLM riducendo la barriera finanziaria all'ingresso. Inoltre, la capacità di sfruttare modelli più economici e tecniche algoritmiche come mixture of experts e chain of thought potrebbe portare a risultati di qualità ancora superiore.

Complessivamente, il rilascio di Route LLM da parte di LM.org è un passo significativo verso la resa degli LLM più accessibili e convenienti, aprendo la strada a ulteriori progressi nel campo dell'intelligenza artificiale.

FAQ