Stijgende benchmarks: Smaug 70B LLaMA 3 Fine-Tuned Model domineert

Ontdek hoe Smaug, een 70B LLaMA 3 finetuned model, benchmarks domineert en GPT-4 Turbo overtreft. Verken zijn indrukwekkende mogelijkheden, waaronder codeertaken en redeneren, in deze diepgaande analyse.

16 april 2025

Ontdek de kracht van het nieuwe LLaMA 3 finetuned model, Smaug 70b, aangezien het benchmarks domineert en zelfs GPT-4 Turbo overtreft. Verken de mogelijkheden van dit open-source model en zie hoe het een verscheidenheid aan taken aan kan, van coderen tot probleemoplossing, in deze uitgebreide analyse.

Smaug 70b domineert benchmarks
De modellen testen: Python-script en Snake Game
Wiskundeproblemen en woordproblemen oplossen
Het scenario met de marmeren beker analyseren
De locatie van de bal bepalen
Zinnen maken die eindigen op het woord 'appel'
De graaftijd voor een 10 voet diepe put berekenen
Conclusie

Smaug 70b domineert benchmarks

Volgens Bindu, de CEO van Abacus AI, is het Smaug 70b-model aanzienlijk beter dan het vorige beste open-source model, LLaMA 37b. Smaug 70b presteert beter dan LLaMA 37b en GPT-4 Turbo op verschillende benchmarks, waaronder MT bench en Arena hard scores.

Het Smaug 70b-model scoorde 56,7 op de MT bench, terwijl LLaMA 37b 41,1 scoorde. Dit toont de verbeterde redenering en capaciteit van het Smaug 70b-model in vergelijking met zijn voorganger.

Om het model verder te testen, heeft de auteur een gecomprimeerde versie van het Smaug-model met 7 miljard parameters gedownload en lokaal uitgevoerd met behulp van LM Studio. Het kleinere model was in staat om een werkend Snake-spel te maken, wat de veelzijdigheid en prestaties ervan demonstreert.

Vervolgens testte de auteur de grotere 70 miljard parameter versie van het Smaug-model op Abacus.com. Het model kon verschillende taken uitvoeren, zoals het weergeven van de getallen 1 tot 100 en het oplossen van eenvoudige wiskundige problemen. Het had echter moeite met complexere taken, zoals het maken van een Snake-spel met behulp van de Curses-bibliotheek of het geven van een stapsgewijze oplossing voor een logisch puzzel.

In tegenstelling daarmee presteerde de kleinere gecomprimeerde versie met 7 miljard parameters beter op deze complexere taken, wat de potentiële voordelen van het gebruik van een kleiner, geoptimaliseerd model voor bepaalde toepassingen benadrukt.

De modellen testen: Python-script en Snake Game

De transcript geeft aan dat de auteur twee versies van het Smog-model heeft getest, een versie met 70 miljard parameters zonder compressie en een versie met 7 miljard parameters met compressie, op verschillende taken. Hier volgt een samenvatting van de belangrijkste punten:

De auteur testte eerst het vermogen van beide modellen om de getallen 1 tot 100 in een Python-script weer te geven, wat beide modellen succesvol konden doen.
Vervolgens testte de auteur het vermogen van de modellen om een Snake-spel in Python te maken. Het kleinere model met 7 miljard parameters kon op de eerste poging een werkend Snake-spel maken, terwijl de grotere versie met 70 miljard parameters problemen had en er niet in slaagde een werkend spel te maken.
De auteur probeerde vervolgens de grotere model om een Snake-spel te maken met behulp van de pygame-bibliotheek, maar ook dat lukte niet.
De auteur concludeerde dat het kleinere gecomprimeerde model beter presteerde op de Snake-game taak in vergelijking met de grotere niet-gecomprimeerde versie.

Over het algemeen suggereren de resultaten dat het kleinere gecomprimeerde model beter in staat was om bepaalde programmeermatige taken, zoals het maken van een werkend Snake-spel, uit te voeren in vergelijking met de grotere niet-gecomprimeerde versie van het Smog-model.

Wiskundeproblemen en woordproblemen oplossen

Het model presteerde goed op een verscheidenheid aan wiskunde- en woordproblemen, wat zijn capaciteiten op het gebied van kwantitatief redeneren en probleemoplossing demonstreert. Enkele belangrijke hoogtepunten:

Het model kon eenvoudige rekenkundige problemen zoals "25 - 4 * 2 + 3" correct oplossen en de stapsgewijze redenering geven.
Voor een woordprobleem over hotelkosten identificeerde het model de juiste formule om de totale kosten, inclusief belasting en kosten, te berekenen.
Toen hem gevraagd werd om de redenering voor een lastige logische puzzel over moordenaars in een kamer uit te leggen, gaf het kleinere lokale model een meer inzichtelijke en nauwkeurige reactie in vergelijking met de grotere cloudversie.
Het kleinere lokale model presteerde ook beter dan de grotere op een eenvoudig proportionaliteitsprobleem over het drogen van shirts.
Beide modellen konden basisprogram-meertaken aan, zoals het genereren van een reeks getallen en het bouwen van een eenvoudig Snake-spel.

Over het algemeen tonen de resultaten de sterke capaciteiten van het model op het gebied van wiskundig redeneren en probleemoplossing, waarbij de kleinere lokale versie soms beter presteerde dan de grotere cloudversie. Dit suggereert dat hoogwaardige kwantitatieve redenering kan worden bereikt, zelfs met compactere en efficiëntere modelimplementaties.

Het scenario met de marmeren beker analyseren

Het marmeren-in-de-beker-scenario is een klassieke logische puzzel die het vermogen test om over de fysieke wereld na te denken en logische conclusies te trekken. In dit geval gaat het om een marmeren dat in een glas wordt geplaatst, het glas wordt ondersteboven gezet en op een tafel gezet, en vervolgens wordt het glas in een magnetron geplaatst.

De sleutel om deze puzzel op te lossen is te begrijpen dat de positie van het marmer ten opzichte van het glas niet verandert tijdens de beschreven acties. Zelfs als het glas ondersteboven wordt gezet en verplaatst, blijft het marmer onderin het glas, dat nu naar boven is gericht.

Wanneer het glas in de magnetron wordt geplaatst, zit het marmer nog steeds in het glas, aangezien de uitgevoerde acties er niet toe hebben geleid dat het marmer het glas heeft verlaten. Dit is het juiste antwoord, aangezien het marmer gedurende de hele reeks gebeurtenissen in dezelfde positie binnen het glas blijft.

De locatie van de bal bepalen

John, die de bal in de doos had gedaan voordat hij naar zijn werk ging, zal ervan uitgaan dat de bal nog steeds in de doos zit.

Mark, die de bal in de mand had gedaan terwijl John weg was, zal ervan uitgaan dat de bal in de mand zit.

Aangezien zowel John als Mark verschillende aannames hebben over de locatie van de bal, is de uiteindelijke locatie van de bal onduidelijk op basis van de verstrekte informatie.

Zinnen maken die eindigen op het woord 'appel'

Het grotere model kon 10 zinnen genereren die allemaal eindigden met het woord "Apple":

De knisperend sappige Apple was een genot om op te eten.
John gooide de rijpe Apple in de mand.
De Appelboom in de achtertuin hing vol met fruit.
Ze sneed de Apple en voegde hem toe aan de salade.
De warme Appeltaart vulde de keuken met een heerlijke geur.
De leraar gaf elke leerling een glanzende Rode Apple.
De karamel-gedoopte Apple was een populaire traktatie op de kermis.
De Appelsap was de perfecte begeleiding bij de herfstbladeren.
De Appelbloesem bloemblaadjes dansten in de zachte bries.
De jonge jongen nam gretig een hap van de Groene Apple.

In tegenstelling daarmee kon het kleinere, lokaal uitgevoerde model slechts 7 van de 10 zinnen genereren die eindigden met het woord "Apple".

De graaftijd voor een 10 voet diepe put berekenen

Om te berekenen hoelang het 50 mensen zou kosten om één 10-voet diepe put te graven, kunnen we een proportionele benadering gebruiken:

Het kost 1 persoon 5 uur om een 10-voet diepe put te graven
Daarom zou het 50 mensen 1/50e van die tijd kosten, wat neerkomt op 6 minuten

De redenering is als volgt:

Als 1 persoon 5 uur nodig heeft, dan zouden 50 mensen 1/50e van die tijd nodig hebben, wat neerkomt op 5 uur / 50 = 0,1 uur = 6 minuten.
De graaftijd is omgekeerd evenredig met het aantal mensen, dus als het aantal mensen verdubbelt, halveert de graaftijd.

Dus zou het 50 mensen 6 minuten kosten om één 10-voet diepe put te graven.

FAQ

Is dit volgens Abacus AI het beste open-source model ter wereld?

Wat zal de videocreator testen?

Hoe presteerde het Smaug 70b-model in vergelijking met LLaMA 3 op de benchmarks?

Wat was het resultaat van het testen van de kleinere gekwantiseerde versie van 7 miljard parameters van het Smaug-model lokaal?

Wat is de sponsor van de video?

Creëer uw AI-vriendin

Bouw uw ideale metgezel met onze AI Girlfriend Builder