Puntos de referencia en aumento: El modelo Smaug 70B LLaMA 3 afinado domina
Descubre cómo Smaug, un modelo de 70B LLaMA 3 con ajuste fino, domina los puntos de referencia, superando a GPT-4 Turbo. Explora sus impresionantes capacidades, incluidas las tareas de codificación y el razonamiento, en este análisis en profundidad.
14 de febrero de 2025

Descubre el poder del nuevo modelo afinado LLaMA 3, Smaug 70b, ya que domina los puntos de referencia y supera incluso a GPT-4 Turbo. Explora las capacidades de este modelo de código abierto y ve cómo puede manejar una variedad de tareas, desde la codificación hasta la resolución de problemas, en este análisis exhaustivo.
Smaug 70b domina los puntos de referencia
Probando los modelos: script de Python y juego de serpientes
Resolviendo problemas matemáticos y de palabras
Analizando el escenario de la bola en la taza
Determinando la ubicación de la pelota
Creando oraciones que terminan con la palabra 'manzana'
Calculando el tiempo de excavación para un hoyo de 10 pies
Conclusión
Smaug 70b domina los puntos de referencia
Smaug 70b domina los puntos de referencia
Según Bindu, la CEO de Abacus AI, el modelo Smaug 70b es significativamente mejor que el mejor modelo de código abierto anterior, LLaMA 37b. Smaug 70b supera a LLaMA 37b y GPT-4 Turbo en varios puntos de referencia, incluidos los puntajes MT bench y Arena hard.
El modelo Smaug 70b obtuvo 56.7 en el MT bench, mientras que LLaMA 37b obtuvo 41.1. Esto demuestra el razonamiento y la capacidad mejorados del modelo Smaug 70b en comparación con su predecesor.
Para probar aún más el modelo, el autor descargó una versión cuantizada de 7 mil millones de parámetros del modelo Smaug y la ejecutó localmente usando LM Studio. El modelo más pequeño pudo crear con éxito un juego de Snake funcional, lo que demuestra su versatilidad y rendimiento.
Luego, el autor procedió a probar la versión más grande de 70 mil millones de parámetros del modelo Smaug en Abacus.com. El modelo pudo completar varias tareas, como generar los números del 1 al 100 y resolver problemas matemáticos sencillos. Sin embargo, tuvo dificultades con tareas más complejas, como crear un juego de Snake usando la biblioteca Curses o proporcionar una solución paso a paso a un rompecabezas lógico.
En contraste, el modelo cuantizado más pequeño de 7 mil millones de parámetros que se ejecuta localmente tuvo un mejor desempeño en estas tareas más complejas, lo que resalta los posibles beneficios de usar un modelo más pequeño y optimizado para ciertos usos.
Probando los modelos: script de Python y juego de serpientes
Probando los modelos: script de Python y juego de serpientes
La transcripción indica que el autor probó dos versiones del modelo Smog, una versión sin cuantificar de 70 mil millones de parámetros y una versión cuantificada de 7 mil millones de parámetros, en varias tareas. Aquí hay un resumen de los puntos clave:
- El autor primero probó la capacidad de ambos modelos para generar los números del 1 al 100 en un script de Python, lo cual ambos modelos lograron hacer con éxito.
- A continuación, el autor probó la capacidad de los modelos para crear un juego de Snake en Python. El modelo cuantificado más pequeño de 7 mil millones de parámetros pudo crear un juego de Snake funcional a la primera, mientras que la versión más grande de 70 mil millones de parámetros tuvo problemas y no pudo crear un juego funcional.
- El autor luego intentó que el modelo más grande creara un juego de Snake usando la biblioteca
pygame
, pero tampoco tuvo éxito en esta tarea. - El autor concluyó que el modelo cuantificado más pequeño tuvo un mejor desempeño en la tarea del juego de Snake en comparación con la versión más grande sin cuantificar.
Resolviendo problemas matemáticos y de palabras
Resolviendo problemas matemáticos y de palabras
El modelo tuvo un buen desempeño en una variedad de problemas matemáticos y de palabras, demostrando sus capacidades en el razonamiento cuantitativo y la resolución de problemas. Algunos aspectos clave:
- El modelo pudo resolver correctamente problemas aritméticos sencillos como "25 - 4 * 2 + 3" y proporcionar el razonamiento paso a paso.
- Para un problema de palabras sobre cargos de hotel, el modelo identificó la fórmula correcta para calcular el costo total, incluidos los impuestos y las tarifas.
- Cuando se le pidió que explicara el razonamiento de un rompecabezas lógico complicado sobre asesinos en una habitación, el modelo local más pequeño proporcionó una respuesta más perspicaz y precisa en comparación con la versión más grande basada en la nube.
- El modelo local más pequeño también superó al más grande en un problema simple de proporcionalidad sobre el secado de camisas.
- Ambos modelos manejaron tareas de programación básicas como generar una secuencia de números y construir un simple juego de Snake.
Analizando el escenario de la bola en la taza
Analizando el escenario de la bola en la taza
El escenario de la bola de cristal en la taza es un rompecabezas lógico clásico que pone a prueba la capacidad de razonar sobre el mundo físico y hacer inferencias lógicas. En este caso, el escenario involucra colocar una bola de cristal en un vaso, voltear el vaso boca abajo y colocarlo sobre una mesa, y luego levantar el vaso y colocarlo en un microondas.
La clave para resolver este rompecabezas es entender que la posición de la bola de cristal con respecto al vaso no cambia a lo largo de las acciones descritas. Incluso cuando el vaso se voltea boca abajo y se mueve, la bola de cristal permanece en el fondo del vaso, que ahora está orientado hacia arriba.
Cuando se coloca el vaso en el microondas, la bola de cristal sigue dentro del vaso, ya que las acciones realizadas no hicieron que la bola de cristal saliera del vaso. Esta es la respuesta correcta, ya que la bola de cristal permanece en la misma posición dentro del vaso durante toda la secuencia de eventos.
Determinando la ubicación de la pelota
Determinando la ubicación de la pelota
John, quien colocó la pelota en la caja antes de irse a trabajar, asumirá que la pelota sigue en la caja.
Mark, quien colocó la pelota en la canasta mientras John no estaba, asumirá que la pelota está en la canasta.
Dado que tanto John como Mark tienen diferentes suposiciones sobre la ubicación de la pelota, la ubicación final de la pelota es ambigua según la información proporcionada.
Creando oraciones que terminan con la palabra 'manzana'
Creando oraciones que terminan con la palabra 'manzana'
El modelo más grande pudo generar 10 oraciones que todas terminaban con la palabra "Manzana":
- La crujiente y jugosa Manzana fue un placer comer.
- John lanzó la Manzana madura a la canasta.
- El árbol de Manzana en el patio trasero estaba cargado de fruta.
- Ella rebanó la Manzana y la agregó a la ensalada.
- El cálido pay de Manzana llenó la cocina con un aroma delicioso.
- La maestra entregó una brillante Manzana Roja a cada estudiante.
- La Manzana bañada en caramelo era un bocado popular en la feria del condado.
- El sidra de Manzana era el acompañamiento perfecto para las hojas de otoño.
- Los pétalos de la flor de Manzana danzaban en la brisa suave.
- El niño pequeño tomó con entusiasmo un bocado de la Manzana Verde.
En contraste, el modelo más pequeño que se ejecuta localmente solo pudo generar 7 de 10 oraciones que terminaban con la palabra "Manzana".
Calculando el tiempo de excavación para un hoyo de 10 pies
Calculando el tiempo de excavación para un hoyo de 10 pies
Para calcular el tiempo que tardarían 50 personas en cavar un solo hoyo de 10 pies, podemos usar un enfoque proporcional:
- A 1 persona le toma 5 horas cavar un hoyo de 10 pies
- Por lo tanto, a 50 personas les tomaría 1/50 de ese tiempo, es decir, 6 minutos
El razonamiento es el siguiente:
- Si a 1 persona le toma 5 horas, entonces a 50 personas les tomaría 1/50 de ese tiempo, es decir, 5 horas / 50 = 0.1 horas = 6 minutos.
- El tiempo de excavación es inversamente proporcional al número de personas, por lo que duplicar el número de personas reduce a la mitad el tiempo de excavación.
Por lo tanto, tardarían 50 personas 6 minutos en cavar un solo hoyo de 10 pies.
Preguntas más frecuentes
Preguntas más frecuentes