Libera la calidad del 90% de GPT-4 con un 80% menos de costo con RouteLLM

Libera la calidad del 90% de GPT-4 con un 80% menos de costo con RouteLLM, un marco de trabajo de código abierto para el enrutamiento de modelos de lenguaje de gran tamaño de manera rentable. Optimiza el rendimiento y la eficiencia con un enfoque novedoso utilizando datos de preferencia.

2 de abril de 2025

Descubre cómo RouteLLM, un marco de trabajo de código abierto, puede reducir significativamente el costo de ejecutar modelos de lenguaje a gran escala (LLM) en hasta un 80% mientras mantiene el 95% del rendimiento de GPT-4. Este enfoque innovador ofrece una solución al dilema de equilibrar el costo y la calidad al implementar LLM, haciendo que la IA sea más accesible y eficiente.

La solución rentable y de alto rendimiento: RouteLLM
Aprovechando los datos de preferencia para entrenar enrutadores
Evaluación de RouteLLM: ahorros de costos significativos sin comprometer la calidad
Demostrando la generalización: RouteLLM a través de diferentes pares de modelos
El panorama general: por qué RouteLLM me emociona
Conclusión

La solución rentable y de alto rendimiento: RouteLLM

RouteLLM es un marco de trabajo de código abierto desarrollado por LM.org que ofrece una solución rentable para implementar modelos de lenguaje a gran escala (LLM) sin comprometer el rendimiento. La innovación clave de RouteLLM es su capacidad para enrutar consultas al LLM más apropiado, equilibrando el costo y la calidad.

El marco aborda el dilema que se enfrenta al implementar LLM, donde el uso del modelo más grande y capaz conduce a las respuestas de mayor calidad, pero puede ser prohibitivamente costoso. RouteLLM resuelve esto procesando primero cada consulta a través de un sistema de enrutamiento que decide qué LLM utilizar. Las consultas que pueden ser manejadas por modelos más débiles y más baratos se enrutan a estos modelos, mientras que las consultas más complejas se enrutan a modelos más fuertes, minimizando los costos generales mientras se mantiene la calidad de las respuestas.

Los investigadores detrás de RouteLLM han demostrado reducciones de costos significativas sin comprometer el rendimiento. Sus experimentos muestran ahorros de costos de más del 85% en el punto de referencia de MT, 45% en MLU y 35% en GSMA-K, en comparación con el uso del modelo más capaz (GPT-4), y aún así logran el 95% de su rendimiento.

Aprovechando los datos de preferencia para entrenar enrutadores

El documento presenta un enfoque novedoso para entrenar enrutadores para el enrutamiento de modelos de lenguaje a gran escala (LLM), que aprovecha los datos de preferencia. Cada punto de datos en los datos de preferencia consta de un mensaje y una comparación entre la calidad de la respuesta de dos modelos en ese mensaje. Esto podría ser una victoria para el primer modelo, una victoria para el segundo modelo o un empate.

El uso de datos de preferencia permite a los investigadores aprender sobre las fortalezas y debilidades de los diferentes modelos y cómo se relacionan con las consultas, lo cual es efectivo para entrenar enrutadores. Entrenaron cuatro enrutadores diferentes utilizando una mezcla de datos de ChatGPT Arena y aumento de datos:

Enrutador de clasificación ponderada por similitud: Este enrutador utiliza un enfoque de clasificación ponderada por similitud para determinar a qué modelo enrutar la consulta.
Modelo de factorización de matriz: Este enrutador utiliza un modelo de factorización de matriz para aprender las preferencias entre modelos y consultas.
Clasificador BERT: Este enrutador utiliza un clasificador basado en BERT para predecir qué modelo tendrá un mejor rendimiento en una consulta dada.
Clasificador de LLM causal: Este enrutador utiliza un clasificador basado en un modelo de lenguaje causal para predecir qué modelo tendrá un mejor rendimiento en una consulta dada.

Evaluación de RouteLLM: ahorros de costos significativos sin comprometer la calidad

Los investigadores evaluaron el rendimiento de estos enrutadores en los puntos de referencia de MT, MLU y GSM8K, y encontraron que podían reducir significativamente los costos (más del 85% en el punto de referencia de MT, 45% en MLU y 35% en GSM8K) sin comprometer la calidad, logrando el 95% del rendimiento del modelo más fuerte (GPT-4).

Importantemente, los investigadores también demostraron la generalización de su marco al usar los mismos enrutadores (sin reentrenamiento) para enrutar entre un par de modelos diferentes (CLA 3 Opus y Llama 38B) y lograr mejoras similares en rentabilidad.

Demostrando la generalización: RouteLLM a través de diferentes pares de modelos

Mientras que las evaluaciones iniciales de RouteLLM se realizaron utilizando el par de modelos GPT-4 y Megatron-LM 8x7B, los investigadores también querían demostrar la generalización de su marco. Para hacer esto, presentaron resultados para el punto de referencia de MT-Bench al enrutar entre un par de modelos diferentes: el modelo más caro y capaz Chinchilla 3 Opus y el modelo menos costoso Llama 38B.

Importantemente, los investigadores utilizaron los mismos enrutadores sin ningún reentrenamiento, mostrando la capacidad de RouteLLM para generalizarse a nuevas combinaciones de modelos. Los resultados mostraron que el enfoque de RouteLLM continuó proporcionando ahorros de costos significativos mientras mantenía un alto rendimiento, incluso cuando se aplicó a este nuevo par de modelos.

El panorama general: por qué RouteLLM me emociona

Estoy emocionado por RouteLLM por algunas razones clave:

Reducción de costos: Si podemos reducir el costo de usar modelos de lenguaje a gran escala (LLM), tendrá beneficios generalizados. Permitirá que más personas y aplicaciones aprovechen la IA, utilizando menos energía en el proceso.
Avances algorítmicos: Técnicas como Mixture of Experts y Chain of Thought usan más tokens, por lo que tener tokens más baratos nos permite usar estos poderosos avances algorítmicos con más frecuencia, lo que lleva a resultados de mayor calidad.
Uso eficiente de IA: El enfoque de RouteLLM de enrutar consultas al modelo más apropiado, ya sea local o basado en la nube, optimiza el costo, la eficiencia y la calidad. Esto empuja más cómputo a dispositivos locales/periféricos, reduciendo la dependencia de modelos en la nube costosos.
Disponibilidad de código abierto: Los autores han lanzado la base de código de código abierto completa, lo cual es siempre emocionante de ver. Esto permite que la comunidad construya y mejore el marco.

Conclusión

La introducción de Route LLM por parte de LM.org es un desarrollo emocionante en el campo de los modelos de lenguaje a gran escala (LLM). Al proporcionar un marco de trabajo de código abierto para el enrutamiento rentable de LLM, Route LLM promete reducir significativamente el costo de ejecutar LLM mientras mantiene un alto nivel de rendimiento.

Los aspectos más destacados de Route LLM incluyen:

Capacidad de reducir los costos de LLM hasta en un 80% mientras mantiene el 95% del rendimiento de GPT-4.
Utilización de un sistema de enrutamiento que decide qué LLM usar para cada consulta, enrutando las consultas que pueden ser manejadas por modelos más débiles a esos modelos para minimizar los costos.
Exploración de varias técnicas de enrutamiento, incluida la clasificación ponderada por similitud, la factorización de matrices y los clasificadores basados en Transformer, para mejorar el rendimiento del enrutador.
Demostración de la generalización del marco al probarlo con diferentes pares de modelos, como CLA-3 Opus y Llama 38B.

Preguntas más frecuentes

¿Qué es RouteLLM?

¿Cómo funciona RouteLLM?

¿Cuáles son los principales beneficios de RouteLLM?

¿Qué técnicas utiliza RouteLLM?

¿Cómo puedo probar RouteLLM?

Crea tu novia AI

Crea tu compañera ideal con nuestro AI Girlfriend Builder