Sommets Éclatants : Le Modèle Smaug 70B LLaMA 3 Affiné Domine

Découvrez comment Smaug, un modèle LLaMA 3 affiné de 70B, domine les benchmarks, surpassant GPT-4 Turbo. Explorez ses impressionnantes capacités, notamment dans les tâches de codage et de raisonnement, dans cette analyse approfondie.

14 février 2025

Découvrez la puissance du nouveau modèle affiné LLaMA 3, Smaug 70b, alors qu'il domine les références et surpasse même GPT-4 Turbo. Explorez les capacités de ce modèle open-source et voyez comment il peut gérer une variété de tâches, du codage à la résolution de problèmes, dans cette analyse approfondie.

Smaug 70b domine les benchmarks
Tester les modèles : script Python et jeu de serpent
Résolution de problèmes de mathématiques et de problèmes de mots
Analyse du scénario de la bille dans la tasse
Détermination de l'emplacement de la balle
Création de phrases se terminant par le mot 'pomme'
Calcul du temps de creusage pour un trou de 10 pieds
Conclusion

Smaug 70b domine les benchmarks

Selon Bindu, PDG d'Abacus AI, le modèle Smaug 70b est nettement supérieur au précédent meilleur modèle open-source, LLaMA 37b. Smaug 70b surpasse LLaMA 37b et GPT-4 Turbo sur divers benchmarks, notamment le MT bench et les scores durs d'Arena.

Le modèle Smaug 70b a obtenu un score de 56,7 sur le MT bench, tandis que LLaMA 37b a obtenu 41,1. Cela démontre les capacités de raisonnement et les performances améliorées du modèle Smaug 70b par rapport à son prédécesseur.

Pour tester davantage le modèle, l'auteur a téléchargé une version quantifiée de 7 milliards de paramètres du modèle Smaug et l'a exécutée localement à l'aide de LM Studio. Le modèle plus petit a réussi à créer un jeu de Snake fonctionnel, démontrant sa polyvalence et ses performances.

L'auteur a ensuite procédé à des tests sur la version plus grande de 70 milliards de paramètres du modèle Smaug sur Abacus.com. Le modèle a pu effectuer diverses tâches, comme générer les nombres de 1 à 100 et résoudre des problèmes de mathématiques simples. Cependant, il a eu du mal avec des tâches plus complexes, comme créer un jeu de Snake à l'aide de la bibliothèque Curses ou fournir une solution étape par étape à un puzzle logique.

Tester les modèles : script Python et jeu de serpent

La transcription indique que l'auteur a testé deux versions du modèle Smog, une version non quantifiée de 70 milliards de paramètres et une version quantifiée de 7 milliards de paramètres, sur diverses tâches. Voici un résumé des points clés :

L'auteur a d'abord testé la capacité des deux modèles à générer les nombres de 1 à 100 dans un script Python, ce que les deux modèles ont réussi à faire.
Ensuite, l'auteur a testé la capacité des modèles à créer un jeu de Snake en Python. Le modèle plus petit de 7 milliards de paramètres quantifié a réussi à créer un jeu de Snake fonctionnel dès le premier essai, tandis que la version plus grande de 70 milliards de paramètres a rencontré des problèmes et n'a pas réussi à créer un jeu fonctionnel.
L'auteur a ensuite essayé d'obtenir du plus gros modèle qu'il crée un jeu de Snake à l'aide de la bibliothèque pygame, mais il n'a pas non plus réussi cette tâche.
L'auteur a conclu que le modèle plus petit quantifié a mieux performé sur la tâche du jeu de Snake par rapport à la version plus grande non quantifiée.

Résolution de problèmes de mathématiques et de problèmes de mots

Le modèle a bien performé sur une variété de problèmes mathématiques et de mots, démontrant ses capacités en raisonnement quantitatif et en résolution de problèmes. Quelques points saillants :

Le modèle a pu résoudre correctement des problèmes d'arithmétique simples comme "25 - 4 * 2 + 3" et fournir le raisonnement étape par étape.
Pour un problème de mots impliquant des frais d'hôtel, le modèle a identifié la bonne formule pour calculer le coût total, y compris les taxes et les frais.
Lorsqu'on lui a demandé d'expliquer le raisonnement d'un puzzle logique complexe sur des tueurs dans une pièce, le modèle local plus petit a fourni une réponse plus perspicace et précise par rapport à la version plus grande basée sur le cloud.
Le modèle local plus petit a également surpassé le plus gros sur un simple problème de proportionnalité sur le séchage des chemises.
Les deux modèles ont géré des tâches de programmation de base comme générer une séquence de nombres et construire un simple jeu de Snake.

Analyse du scénario de la bille dans la tasse

Le scénario de la bille dans le verre est un puzzle logique classique qui teste la capacité de raisonner sur le monde physique et de faire des inférences logiques. Dans ce cas, le scénario implique de placer une bille dans un verre, de retourner le verre et de le poser sur une table, puis de le placer dans un micro-ondes.

La clé pour résoudre ce puzzle est de comprendre que la position de la bille par rapport au verre ne change pas tout au long des actions décrites. Même si le verre est retourné et déplacé, la bille reste au fond du verre, qui est maintenant orienté vers le haut.

Lorsque le verre est placé dans le micro-ondes, la bille est toujours à l'intérieur du verre, car les actions effectuées n'ont pas fait sortir la bille du verre. C'est la réponse correcte, car la bille reste dans la même position à l'intérieur du verre tout au long de la séquence d'événements.

Détermination de l'emplacement de la balle

John, qui a mis la balle dans la boîte avant de partir au travail, supposera que la balle est toujours dans la boîte.

Mark, qui a mis la balle dans le panier pendant l'absence de John, supposera que la balle est dans le panier.

Puisque John et Mark ont des hypothèses différentes sur l'emplacement de la balle, l'emplacement final de la balle est ambigu selon les informations fournies.

Création de phrases se terminant par le mot 'pomme'

Le plus gros modèle a pu générer 10 phrases se terminant toutes par le mot "Apple" :

La pomme croquante et juteuse était un délice à manger.
John a jeté la pomme mûre dans le panier.
Le pommier dans le jardin était chargé de fruits.
Elle a tranché la pomme et l'a ajoutée à la salade.
La tarte aux pommes chaude a rempli la cuisine d'un arôme délicieux.
L'enseignant a distribué une pomme rouge brillante à chaque élève.
La pomme enrobée de caramel était une friandise populaire à la foire du comté.
Le cidre de pomme était le parfait accompagnement des feuilles d'automne.
Les pétales de fleurs de pommier dansaient dans la brise légère.
Le jeune garçon a avidement mordu dans la pomme verte.

En revanche, le modèle plus petit exécuté localement n'a pu générer que 7 phrases sur 10 se terminant par le mot "Apple".

Calcul du temps de creusage pour un trou de 10 pieds

Pour calculer le temps qu'il faudrait à 50 personnes pour creuser un seul trou de 10 pieds, nous pouvons utiliser une approche proportionnelle :

Il faut 1 personne 5 heures pour creuser un trou de 10 pieds
Donc, il faudrait 50 personnes 1/50e du temps, soit 6 minutes

Le raisonnement est le suivant :

Si 1 personne met 5 heures, alors 50 personnes mettraient 1/50e de ce temps, soit 5 heures / 50 = 0,1 heure = 6 minutes.
Le temps de creusage est inversement proportionnel au nombre de personnes, donc doubler le nombre de personnes divise par deux le temps de creusage.

Donc, il faudrait 50 personnes 6 minutes pour creuser un seul trou de 10 pieds.

FAQ

Est-ce le meilleur modèle open-source au monde selon Abacus AI ?

Que testera le créateur de la vidéo ?

Comment le modèle Smaug 70b s'est-il comporté par rapport à LLaMA 3 sur les benchmarks ?

Quel a été le résultat du test de la version quantifiée plus petite de 7 milliards de paramètres du modèle Smaug localement ?

Quel est le sponsor de la vidéo ?

Créez Votre Petite Amie IA

Construisez votre compagne idéale avec notre Constructeur de Petite Amie IA