Stigande riktmärken: Smaug 70B LLaMA 3 fintunad modell dominerar

Upptäck hur Smaug, en 70B LLaMA 3-fintunad modell, dominerar mätningar och överträffar GPT-4 Turbo. Utforska dess imponerande förmågor, inklusive kodningsuppgifter och resonemang, i denna djupgående analys.

30 mars 2025

Upptäck kraften i den nya LLaMA 3-finjusterade modellen, Smaug 70b, när den dominerar mätningar och överträffar till och med GPT-4 Turbo. Utforska möjligheterna med denna öppna källkodmodell och se hur den kan hantera en mängd olika uppgifter, från kodning till problemlösning, i denna omfattande analys.

Smaug 70b dominerar benchmarks
Testa modellerna: Python-skript och Snake Game
Lösa matematiska problem och ordproblem
Analysera marmorn i koppen-scenariot
Fastställa bollens placering
Skapa meningar som slutar med ordet 'äpple'
Beräkna grävtid för ett 10 fot djupt hål
Slutsats

Smaug 70b dominerar benchmarks

Enligt Bindu, VD för Abacus AI, är Smaug 70b-modellen betydligt bättre än den tidigare bästa öppna källkods-modellen, LLaMA 37b. Smaug 70b överträffar LLaMA 37b och GPT-4 Turbo på olika mätningar, inklusive MT-bench och Arena hard-poäng.

Smaug 70b-modellen fick 56,7 på MT-bench, medan LLaMA 37b fick 41,1. Detta visar på den förbättrade logiska förmågan och kapaciteten hos Smaug 70b-modellen jämfört med sin föregångare.

För att ytterligare testa modellen laddade författaren ner en 7 miljarder parameter kvantiserad version av Smaug-modellen och körde den lokalt med LM Studio. Den mindre modellen kunde framgångsrikt skapa ett fungerande Snake-spel, vilket visar på dess mångsidighet och prestanda.

Författaren testade sedan den större 70 miljarder parameter-versionen av Smaug-modellen på Abacus.com. Modellen kunde utföra olika uppgifter, som att skriva ut siffrorna 1 till 100 och lösa enkla matematiska problem. Den hade dock svårigheter med mer komplexa uppgifter, som att skapa ett Snake-spel med hjälp av Curses-biblioteket eller ge en steg-för-steg-lösning på en logisk gåta.

I kontrast klarade den mindre 7 miljarder parameter kvantiserade modellen som kördes lokalt dessa mer komplexa uppgifter bättre, vilket belyser de potentiella fördelarna med att använda en mindre, optimerad modell för vissa tillämpningar.

Testa modellerna: Python-skript och Snake Game

Transkriptet indikerar att författaren testade två versioner av Smog-modellen, en 70 miljarder parameter okvantierad version och en 7 miljarder parameter kvantiserad version, på olika uppgifter. Här är en sammanfattning av de viktigaste punkterna:

Författaren testade först båda modellernas förmåga att skriva ut siffrorna 1 till 100 i ett Python-skript, vilket båda modellerna klarade av framgångsrikt.
Nästa steg var att testa modellernas förmåga att skapa ett Snake-spel i Python. Den mindre 7 miljarder parameter kvantiserade modellen kunde skapa ett fungerande Snake-spel på första försöket, medan den större 70 miljarder parameter-versionen hade problem och inte kunde skapa ett fungerande spel.
Författaren försökte sedan få den större modellen att skapa ett Snake-spel med hjälp av pygame-biblioteket, men den lyckades inte heller med den uppgiften.
Författaren drog slutsatsen att den mindre kvantiserade modellen presterade bättre på Snake-spels-uppgiften jämfört med den större okvantierade versionen.

Lösa matematiska problem och ordproblem

Modellen presterade väl på en mängd olika matematik- och ordproblem, vilket demonstrerar dess förmågor inom kvantitativ logik och problemlösning. Några viktiga höjdpunkter:

Modellen kunde korrekt lösa enkla aritmetiska problem som "25 - 4 * 2 + 3" och ge en steg-för-steg-förklaring.
För ett ordproblem som rörde hotellkostnader identifierade modellen den korrekta formeln för att beräkna den totala kostnaden, inklusive skatt och avgifter.
När den ombads förklara logiken bakom en knepig logisk gåta om mördare i ett rum, gav den mindre lokala modellen ett mer insiktsfullt och korrekt svar jämfört med den större molnbaserade versionen.
Den mindre lokala modellen presterade också bättre än den större på ett enkelt proportionalitetsproblem om att torka skjortor.
Båda modellerna hanterade grundläggande programmeringsuppgifter som att generera en sifferserie och bygga ett enkelt Snake-spel.

Analysera marmorn i koppen-scenariot

Scenario med kulan i glaset är en klassisk logisk gåta som testar förmågan att resonera kring den fysiska världen och göra logiska slutsatser. I detta fall involverar scenariot en kula som placeras i ett glas, glaset som vänds upp och ner och placeras på ett bord, och sedan glaset som plockas upp och placeras i en mikrovågsugn.

Nyckel till att lösa denna gåta är att förstå att kulans position i förhållande till glaset inte ändras under de beskrivna åtgärderna. Även om glaset vänds upp och ner och flyttas, förblir kulan i botten av glaset, som nu är vänd uppåt.

När glaset placeras i mikrovågsugnen är kulan fortfarande inuti glaset, eftersom de utförda åtgärderna inte orsakade att kulan lämnade glaset. Detta är det korrekta svaret, eftersom kulan förblir i samma position inom glaset under hela händelseförloppet.

Fastställa bollens placering

John, som lade bollen i lådan innan han gick till jobbet, kommer att anta att bollen fortfarande är i lådan.

Mark, som lade bollen i korgen medan John var borta, kommer att anta att bollen är i korgen.

Då både John och Mark har olika antaganden om var bollen befinner sig, är den slutliga platsen för bollen oklar utifrån den information som ges.

Skapa meningar som slutar med ordet 'äpple'

Den större modellen kunde generera 10 meningar som alla slutade med ordet "Apple":

Den krispiga, saftiga Äpplet var en fröjd att äta.
John kastade det mogna Äpplet i korgen.
Äppelträdet i bakgården var fullt av frukt.
Hon skivade Äpplet och lade det i salladen.
Den varma Äppelpajen fyllde köket med en ljuvlig doft.
Läraren delade ut ett skinande Rött Äpple till varje elev.
Det karamellöverdragna Äpplet var en populär godis på länsmässan.
Äppelcidret var det perfekta tillbehöret till de höstliga löven.
De unga Äppelblomsterbladen dansade i den lätta vinden.
Den unga pojken tog ivrigt en bit av det Gröna Äpplet.

Beräkna grävtid för ett 10 fot djupt hål

För att beräkna hur lång tid det skulle ta 50 personer att gräva en enda 10 fot djup grop kan vi använda ett proportionellt tillvägagångssätt:

Det tar 1 person 5 timmar att gräva en 10 fot djup grop
Därför skulle det ta 50 personer 1/50 av den tiden, vilket är 6 minuter

Resonemanget är följande:

Om 1 person tar 5 timmar, skulle 50 personer ta 1/50 av den tiden, vilket är 5 timmar / 50 = 0,1 timmar = 6 minuter.
Grävtiden är omvänt proportionell mot antalet personer, så att fördubbla antalet personer halverar grävtiden.

Därför skulle det ta 50 personer 6 minuter att gräva en enda 10 fot djup grop.

FAQ

Är detta den bästa öppna källkods-modellen i världen enligt Abacus AI?

Vad kommer videoskaparen att testa?

Hur presterade Smaug 70b-modellen jämfört med LLaMA 3 på benchmarkarna?

Vad var resultatet av att testa den mindre 7 miljarder parametrar stora kvantifierade versionen av Smaug-modellen lokalt?

Vem är sponsorn för videon?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder