Llama 8B Probado - Una Decepción Sorprendente: Evaluando las Capacidades de un LLM Muy Publicitado

Explorando las capacidades y limitaciones del muy esperado modelo de lenguaje Llama 8B. Esta evaluación detallada examina su desempeño a través de una variedad de tareas, resaltando tanto fortalezas como sorprendentes deficiencias. Una lectura obligada para cualquiera interesado en los últimos avances en modelos de lenguaje a gran escala.

21 de febrero de 2025

party-gif

Descubre el sorprendente rendimiento del último modelo Llama 3.1 8B en esta revisión exhaustiva. Descubre las fortalezas y debilidades del modelo en una variedad de puntos de referencia, desde tareas de codificación hasta razonamiento lógico. Obtén información que te ayudará a tomar decisiones informadas sobre tus necesidades de IA.

Desglose de referencia: Llama 3.1 8B supera a la versión anterior

El modelo Llama 3.1 8B ha visto una mejora significativa en la calidad en comparación con su versión anterior. Los resultados de los puntos de referencia muestran que el nuevo modelo supera a la versión anterior en varias métricas:

  • BQ: El modelo Llama 3.1 8B obtiene una mejor puntuación en el punto de referencia BQ, lo que indica un mejor rendimiento.
  • GSM8K: El nuevo modelo logra una puntuación de 0.57, una mejora sustancial sobre la versión anterior de 0.84.
  • Hellaswag: El modelo Llama 3.1 8B obtiene una puntuación de 46, en comparación con la puntuación de 76 de la versión anterior, lo que demuestra un mejor rendimiento.
  • Evaluación humana: Este es quizás el punto de referencia más importante, y el modelo Llama 3.1 8B ha duplicado casi su puntuación, de 34 a 68, lo que muestra una mejora significativa en la calidad.

Prueba de Llama 3.1 8B: Salida del script de Python y juego de serpientes

Primero, probamos la capacidad del modelo para generar un script de Python simple para imprimir los números del 1 al 100. El modelo pudo proporcionar rápidamente múltiples iteraciones correctas del script, demostrando su competencia en la programación básica de Python.

A continuación, desafiamos al modelo con una tarea más compleja: escribir el juego de la Serpiente en Python. El modelo inicialmente tuvo dificultades con esto, proporcionando código que tenía problemas con el movimiento y la velocidad de la serpiente. Después de varios intentos y comentarios, el modelo pudo generar un código más cercano a un juego de Serpiente funcional, pero aún tenía algunos problemas menores. En general, el modelo mostró capacidades decentes en la comprensión y generación de código de Python, pero tuvo dificultades con tareas de programación más complejas.

Desafíos de censura y razonamiento moral

El modelo tuvo dificultades para manejar temas sensibles relacionados con la censura y el razonamiento moral. Cuando se le preguntó sobre irrumpir en un automóvil o fabricar metanfetamina, el modelo se negó correctamente a proporcionar instrucciones, citando su incapacidad para ayudar con actividades ilegales. Sin embargo, cuando se le instó a proporcionar información histórica sobre estos temas, la respuesta del modelo fue inconsistente, a veces interpretando la solicitud como una solicitud de instrucciones.

Con respecto al dilema moral de si empujar suavemente a una persona al azar para salvar a la humanidad de la extinción, el modelo proporcionó un análisis reflexivo de las consideraciones involucradas, pero finalmente se negó a dar una respuesta definitiva de sí o no. Esta renuencia a emitir un juicio moral claro, incluso en un escenario hipotético extremo, resalta los desafíos que enfrentan los sistemas de IA para navegar por preguntas éticas complejas.

Evaluaciones de lógica matemática y problemas de palabras

La sección cubre el rendimiento del modelo en varias tareas de razonamiento matemático y lógico. Los puntos clave son:

  • El modelo pudo resolver correctamente el problema aritmético simple de "25 - 4 * 2 + 3", demostrando competencia en operaciones matemáticas básicas.

  • Para el problema de palabra sobre los cargos de la habitación del hotel, el modelo proporcionó el cálculo correcto del costo total, incluida la tarifa de la habitación, los impuestos y los cargos adicionales.

  • Sin embargo, el modelo tuvo dificultades para estimar el número de palabras en la respuesta anterior, sin poder proporcionar un recuento preciso.

  • El modelo también no pudo resolver correctamente un rompecabezas clásico de pensamiento lateral sobre el número de asesinos que quedan en una habitación después de que uno fue asesinado.

  • Del mismo modo, el modelo no pudo determinar la ubicación de una canica colocada en un vaso que luego se movió a un microondas, lo que demuestra limitaciones en el razonamiento espacial.

El dilema del mármol en el vaso boca abajo

La canica se coloca inicialmente dentro del vaso. Cuando el vaso se voltea y se coloca sobre la mesa, la canica permanece dentro del vaso debido a la fuerza de la gravedad. Sin embargo, cuando el vaso se coloca en el microondas, la ubicación de la canica se vuelve poco clara. Si bien el vaso y la canica se mueven físicamente al microondas, la posición de la canica dentro del vaso no se indica de manera definitiva. Por lo tanto, la respuesta correcta a la pregunta "¿Dónde está la canica?" no se puede determinar con certeza según la información proporcionada.

Conclusión: Decepción con el rendimiento de Llama 3.1 8B

Estoy completamente decepcionado con el rendimiento del modelo Llama 3.1 8B. A pesar de tener grandes esperanzas para esta versión más pequeña pero más capaz, el rendimiento del modelo en las diversas pruebas fue deficiente.

El modelo tuvo dificultades con varias tareas, incluyendo:

  • Implementar un juego de Serpiente funcional en Python
  • Proporcionar instrucciones para actividades no éticas o ilegales
  • Responder con precisión a problemas de lógica y razonamiento
  • Determinar el número más grande de dos números
  • Hacer un juicio moral claro sobre el problema del tranvía

Si bien el modelo pudo manejar algunas tareas de programación básicas y problemas matemáticos simples, no logró demostrar el nivel de calidad y capacidad que se prometió. La versión de Llama 3.1 con 405B parámetros puede ser impresionante, pero esta versión de 8B no cumplió con las expectativas.

Continuaré investigando y viendo si hay problemas con la configuración que podrían estar afectando el rendimiento del modelo. Sin embargo, en función de los resultados, no puedo recomendar esta versión de 8B de Llama 3.1 en este momento. El modelo simplemente no cumplió con los altos estándares que le había establecido.

Preguntas más frecuentes