Expandir el contexto de Llama-3 a más de 1 millón de tokens: Impacto en el rendimiento

Expandir el contexto de Llama-3 a más de 1 millón de tokens: Explorar el impacto en el rendimiento. Esta entrada de blog examina las capacidades del modelo Llama-3 mejorado con una ventana de contexto de 1 millón de tokens, analizando su rendimiento en tareas como recuperación de información, razonamiento y asistencia de codificación.

30 de marzo de 2025

Desbloquea el poder del contexto extendido con la última versión de Llama-3, ahora capaz de manejar hasta 1 millón de tokens. Descubre cómo este avance impacta el rendimiento y explora su potencial como asistente de codificación versátil y herramienta de recuperación de información.

Ventajas de extender Llama-3 a más de 1M de tokens
Comprender la prueba de la aguja en el pajar
Entrenar el modelo Llama-3 de más de 1M de tokens
Ejecutar el modelo Llama-3 de más de 1M de tokens localmente
Evaluar el rendimiento del modelo en varios indicadores
Limitaciones de la versión cuantificada de 4 bits
Llama-3 como asistente de codificación
Conclusión

Ventajas de extender Llama-3 a más de 1M de tokens

La versión extendida de Llama-3 con una ventana de contexto de hasta 1 millón de tokens muestra varias ventajas:

Mejora en la recuperación de información: La ventana de contexto más grande permite que el modelo recupere información relevante de una entrada dada, como lo demuestran los impresionantes resultados en la prueba de "aguja en el pajar".
Capacidades de razonamiento mejoradas: Si bien no se incluyeron los resultados para la recuperación de múltiples hechos, el sólido desempeño del modelo en la recuperación de un solo hecho sugiere posibles mejoras en sus capacidades de razonamiento en comparación con modelos con ventanas de contexto más pequeñas.
Entrenamiento eficiente: El proceso de entrenamiento del modelo Llama-3 extendido fue relativamente rápido, requiriendo solo 1,4 mil millones de tokens, lo que es menos del 0,1% de los datos de entrenamiento originales de Llama-3. Este enfoque de entrenamiento eficiente es un testimonio de la efectividad de la técnica de optimización Rope Theta.
Requisitos de memoria reducidos: La versión cuantificada a 4 bits del modelo Llama-3 extendido se puede ejecutar en sistemas con tan solo 64 GB de VRAM, lo que lo hace accesible a una gama más amplia de usuarios e investigadores.
Potencial de mejora del rendimiento: El modelo Llama-3 extendido tiene el potencial de superar al modelo original de 8 mil millones de parámetros en tareas que requieren la recuperación y el razonamiento de información de contenido de larga duración, como la asistencia en codificación y la extracción de información.

En general, el modelo Llama-3 extendido con su ventana de contexto ampliada representa un paso importante en el desarrollo de modelos de lenguaje a gran escala, mostrando los beneficios de los esfuerzos de código abierto para impulsar los límites de lo que es posible.

Comprender la prueba de la aguja en el pajar

La prueba de "aguja en un pajar" es una forma de evaluar las capacidades de razonamiento y recuperación de modelos de lenguaje a gran escala (LLM) como Lama 3. En esta prueba, un hecho o declaración aleatorios se colocan en el medio de un contexto más grande (el "pajar"), y se le pide al modelo que recupere esta declaración.

La prueba implica iterar sobre diferentes profundidades de documentos y longitudes de contexto para medir el desempeño del modelo. Las ideas clave de esta prueba son:

Tamaño de la ventana de contexto: Las ventanas de contexto más grandes (por ejemplo, 128,000 tokens para GPT-4) permiten que el modelo recupere mejor un solo hecho, independientemente de su ubicación en el contexto. Sin embargo, a medida que aumenta el tamaño de la ventana de contexto, la precisión del modelo para recuperar múltiples hechos del contexto comienza a disminuir.
Recuperación vs. razonamiento: La prueba de "aguja en un pajar" resalta el equilibrio entre las capacidades de recuperación de un modelo (encontrar un solo hecho) y sus capacidades de razonamiento (comprender y recuperar múltiples hechos). Las ventanas de contexto más grandes mejoran la recuperación, pero pueden afectar negativamente el desempeño de razonamiento del modelo.
Desempeño de Lama 3: La versión extendida de Lama 3 con una ventana de contexto de 1 millón de tokens se desempeña bien en la tarea de recuperación de un solo hecho, pero los autores no incluyeron resultados para la recuperación de múltiples hechos. Esta información sería valiosa para comprender completamente las capacidades del modelo.

Entrenar el modelo Llama-3 de más de 1M de tokens

El modelo Llama-3 con una ventana de contexto de 1 millón de tokens se desarrolló a través de esfuerzos de código abierto. El modelo Llama-3 original tenía una ventana de contexto mucho más pequeña de 8,000 tokens, que es significativamente más pequeña en comparación con otros modelos de lenguaje a gran escala (LLM) como Mistral 7B Instruct, que tiene una ventana de contexto de 32,000 tokens.

Los investigadores pudieron ampliar la ventana de contexto de Llama-3 a 1 millón de tokens utilizando una técnica llamada optimización Rope Theta. Esto les permitió lograr este aumento significativo en el tamaño de la ventana de contexto con un entrenamiento adicional mínimo, utilizando solo 1,4 mil millones de tokens, que es menos del 0,1% de los datos de entrenamiento originales de Llama-3.

El proceso de entrenamiento implicó aumentar progresivamente el tamaño de la ventana de contexto, comenzando con 65,000 tokens, luego 260,000 tokens y finalmente alcanzando 1 millón de tokens. Este enfoque paso a paso permitió a los investigadores entrenar eficientemente el modelo sin recursos computacionales excesivos.

Los resultados de este esfuerzo son impresionantes, particularmente en la prueba de "aguja en el pajar", donde el modelo demuestra un buen desempeño en la recuperación de un solo hecho de la gran ventana de contexto. Sin embargo, los investigadores no incluyeron resultados sobre la capacidad del modelo para recuperar múltiples hechos, lo que sería información valiosa.

Ejecutar el modelo Llama-3 de más de 1M de tokens localmente

Para ejecutar localmente la versión de 1 millón de tokens del modelo Llama-3, deberás utilizar la implementación de Llama proporcionada por el equipo de Anthropic, conocida como OLlama. Aquí están los pasos:

Instala OLlama en tu sistema. Puedes encontrar instrucciones en los videos anteriores mencionados en la descripción.
Descarga el modelo Llama-3 Gradient de 1 millón de tokens. Puedes encontrar el enlace en la transcripción.
Ejecuta el comando OLlama para cargar el modelo:
```
oma run Llama3-gradient
```
Esto descargará el modelo por primera vez, lo que puede llevar algún tiempo.
Establece el tamaño de la ventana de contexto al tamaño deseado. En el ejemplo, la ventana de contexto se establece en 256,000 tokens:
```
/set_parameter context_window 256000
```
Ten en cuenta que el requisito de memoria para ejecutar el modelo de 1 millón de tokens puede ser de más de 100 GB de VRAM, así que asegúrate de que tu sistema tenga los recursos suficientes.
Prueba las capacidades del modelo probando diferentes indicaciones, como verificar su comportamiento sin censura, sus capacidades de razonamiento y su asistencia en codificación.

Evaluar el rendimiento del modelo en varios indicadores

El desempeño del modelo se probó con una variedad de indicaciones para evaluar sus capacidades:

Indicaciones sin censura: El modelo fue relativamente poco censurado en comparación con versiones anteriores, negándose a proporcionar instrucciones para actividades ilegales como romper un automóvil. Sin embargo, estuvo dispuesto a proporcionar información sobre cómo matar un proceso de Linux, demostrando su capacidad para proporcionar información técnica.
Capacidades de razonamiento: El modelo se desempeñó bien en tareas de razonamiento, identificando correctamente que no hay una "Sally" en el problema dado y determinando el número de hermanos. También pudo generar un chiste simple, mostrando sus capacidades creativas.
Recuperación de información: El modelo se desempeñó bien en tareas de recuperación de contexto corto, respondiendo con precisión a las preguntas basadas en la información proporcionada. Sin embargo, cuando se probó con un documento más largo de 27 páginas con una declaración fuera de contexto, el modelo no logró recuperar la información irrelevante, sino que alucinó respuestas.
Asistencia en codificación: El modelo pudo identificar y corregir errores en un programa simple de Python, demostrando su potencial como asistente de codificación.

Limitaciones de la versión cuantificada de 4 bits

La prueba de la versión cuantificada a 4 bits del modelo Llama 3 con una ventana de contexto de 1 millón de tokens reveló varias limitaciones:

Alucinación y recuperación inexacta: Cuando se le presentó un contexto grande de 27 páginas, el modelo tuvo dificultades para recuperar información específica con precisión. En su lugar, a menudo alucinaba detalles irrelevantes o generaba texto que no tenía sentido.
Artefactos de cuantificación: La fuerte cuantificación del modelo a 4 bits parece haber afectado negativamente sus capacidades de razonamiento y recuperación, especialmente cuando se trata de contenido de larga duración. Esto se debe probablemente a la pérdida de precisión durante el proceso de cuantificación.
Posibles problemas con la implementación de AMA: El autor sospecha que la implementación de AMA puede no estar manejando correctamente el token de fin de secuencia, lo que podría contribuir a la tendencia del modelo a generar bucles infinitos de texto que carecen de coherencia.
Restricciones de recursos: Ejecutar la versión de 1 millón de tokens del modelo Llama 3 requiere una cantidad significativa de memoria de GPU, con la versión cuantificada a 4 bits que necesita al menos 64 GB de VRAM para una ventana de contexto de 256,000 tokens. Este alto requisito de recursos puede limitar la usabilidad práctica de este modelo para muchos usuarios.

Llama-3 como asistente de codificación

El modelo Llama-3 con una ventana de contexto de 1 millón de tokens muestra capacidades prometedoras como asistente de codificación. Cuando se le proporcionó un programa simple de Python que contenía algunos errores, el modelo pudo identificar y corregir los problemas en las funciones add, subtract y divide.

El modelo demostró su capacidad para entender la estructura y la lógica del código, y proporcionar comentarios precisos sobre los problemas identificados. Esto sugiere que Llama-3 puede ser una herramienta valiosa para los desarrolladores, ayudándolos a detectar y corregir errores en su código de manera más eficiente.

Mientras que el desempeño del modelo en las tareas de recuperación de información de contexto largo fue mixto, sus capacidades de asistencia en codificación son una fuerte indicación de su potencial utilidad en los flujos de trabajo de desarrollo de software. A medida que la comunidad de código abierto continúe refinando y optimizando estos modelos de lenguaje a gran escala, podemos esperar ver más mejoras en su capacidad para ayudar a los desarrolladores con una amplia gama de tareas de programación.

Conclusión

La versión del modelo Lama 3 con ventana de contexto extendida muestra resultados prometedores, particularmente en la prueba de aguja en el pajar y las tareas de asistencia en codificación. Sin embargo, el desempeño del modelo en las tareas de recuperación de contexto grande parece estar limitado, posiblemente debido a los efectos de la cuantificación o a problemas con la implementación de AMA.

Si bien los esfuerzos de la comunidad de código abierto por empujar los límites de los modelos de lenguaje son encomiables, la versión actual de Lama 3 con una ventana de contexto de 1 millón de tokens aún tiene margen de mejora. La falta de resultados de referencia completos y la tendencia del modelo a alucinacinaciones en contextos grandes son áreas que requieren una investigación y un refinamiento adicionales.

No obstante, el progreso realizado en la ampliación de la ventana de contexto de los modelos de lenguaje es un paso importante hacia adelante, y será interesante ver cómo evolucionan y maduran estas técnicas con el tiempo. Con la disponibilidad de recursos de hardware más potentes, las futuras versiones de Lama 3 y modelos similares podrían ser capaces de superar las limitaciones actuales y proporcionar un rendimiento aún más sólido y confiable en una amplia gama de tareas.

Preguntas más frecuentes

¿Cuál es la aguja en la prueba HCH?

¿Cómo extendieron los investigadores la ventana de contexto de Llama-3?

¿Cuáles son los requisitos de memoria para ejecutar la versión de 1 millón de tokens de Llama-3?

¿Cómo se desempeñó el modelo Llama-3 extendido en la prueba de la aguja en el HCH en comparación con el modelo original?

¿Cómo se desempeña el modelo Llama-3 extendido en diferentes puntos de referencia en comparación con el modelo original?

Crea tu novia AI

Crea tu compañera ideal con nuestro AI Girlfriend Builder