Benchmark in ascesa: il modello Smaug 70B LLaMA 3 affinato domina

Scopri come Smaug, un modello LLaMA 3 fine-tuned da 70B, domina le classifiche, superando GPT-4 Turbo. Esplora le sue impressionanti capacità, inclusi i compiti di codifica e il ragionamento, in questa analisi approfondita.

15 febbraio 2025

party-gif

Scopri la potenza del nuovo modello LLaMA 3 affinato, Smaug 70b, mentre domina le classifiche e supera persino GPT-4 Turbo. Esplora le capacità di questo modello open-source e scopri come può gestire una varietà di attività, dalla codifica alla risoluzione dei problemi, in questa analisi completa.

Smaug 70b domina i benchmark

Secondo Bindu, CEO di Abacus AI, il modello Smaug 70b è significativamente migliore del precedente miglior modello open-source, LLaMA 37b. Smaug 70b supera LLaMA 37b e GPT-4 Turbo in vari benchmark, inclusi MT bench e Arena hard scores.

Il modello Smaug 70b ha ottenuto un punteggio di 56,7 su MT bench, mentre LLaMA 37b ha ottenuto 41,1. Ciò dimostra il miglioramento del ragionamento e delle capacità del modello Smaug 70b rispetto al suo predecessore.

Per testare ulteriormente il modello, l'autore ha scaricato una versione quantizzata da 7 miliardi di parametri del modello Smaug e l'ha eseguita localmente utilizzando LM Studio. Il modello più piccolo è stato in grado di creare con successo un gioco di Snake funzionante, dimostrando la sua versatilità e prestazioni.

Testare i modelli: script Python e Snake Game

Il transcript indica che l'autore ha testato due versioni del modello Smog, una versione non quantizzata da 70 miliardi di parametri e una versione quantizzata da 7 miliardi di parametri, su vari compiti. Ecco un riepilogo dei punti chiave:

  • L'autore ha prima testato la capacità di entrambi i modelli di generare i numeri da 1 a 100 in uno script Python, che entrambi i modelli sono riusciti a fare con successo.
  • Successivamente, l'autore ha testato la capacità dei modelli di creare un gioco di Snake in Python. Il modello più piccolo da 7 miliardi di parametri quantizzato è riuscito a creare un gioco di Snake funzionante al primo tentativo, mentre la versione più grande da 70 miliardi di parametri ha avuto problemi e non è riuscita a creare un gioco funzionante.
  • L'autore ha quindi provato a far creare il gioco di Snake alla versione più grande utilizzando la libreria pygame, ma non è riuscita nemmeno in questo compito.
  • L'autore ha concluso che il modello più piccolo quantizzato ha avuto prestazioni migliori nel compito del gioco di Snake rispetto alla versione più grande non quantizzata.

Risolvere problemi di matematica e problemi di parole

Il modello ha avuto buone prestazioni su una varietà di problemi matematici e di parole, dimostrando le sue capacità di ragionamento quantitativo e di problem-solving. Alcuni punti salienti:

  • Il modello è stato in grado di risolvere correttamente semplici problemi aritmetici come "25 - 4 * 2 + 3" e fornire il ragionamento passo-passo.
  • Per un problema di parole relativo alle spese alberghiere, il modello ha identificato la formula corretta per calcolare il costo totale, incluse tasse e commissioni.
  • Quando gli è stato chiesto di spiegare il ragionamento per un rompicapo logico complicato sui killer in una stanza, il modello locale più piccolo ha fornito una risposta più approfondita e accurata rispetto alla versione più grande basata sul cloud.
  • Il modello locale più piccolo ha anche superato quello più grande in un semplice problema di proporzionalità sulla asciugatura delle magliette.
  • Entrambi i modelli hanno gestito compiti di programmazione di base come generare una sequenza di numeri e costruire un semplice gioco di Snake.

Analizzare lo scenario della palla nel bicchiere

Lo scenario della biglia nel bicchiere è un classico rompicapo logico che mette alla prova la capacità di ragionare sul mondo fisico e fare inferenze logiche. In questo caso, lo scenario prevede che una biglia venga messa in un bicchiere, il bicchiere venga capovolto e posizionato su un tavolo, e poi il bicchiere venga sollevato e messo nel microonde.

La chiave per risolvere questo rompicapo è capire che la posizione della biglia rispetto al bicchiere non cambia durante le azioni descritte. Anche se il bicchiere viene capovolto e spostato, la biglia rimane sul fondo del bicchiere, che ora è rivolto verso l'alto.

Quando il bicchiere viene messo nel microonde, la biglia è ancora all'interno del bicchiere, poiché le azioni eseguite non hanno causato la fuoriuscita della biglia dal bicchiere. Questa è la risposta corretta, poiché la biglia rimane nella stessa posizione all'interno del bicchiere per l'intera sequenza di eventi.

Determinare la posizione della palla

John, che ha messo la palla nel box prima di andare al lavoro, assumerà che la palla sia ancora nel box.

Mark, che ha messo la palla nel cestino mentre John era via, assumerà che la palla sia nel cestino.

Poiché sia John che Mark hanno ipotesi diverse sulla posizione della palla, la posizione finale della palla è ambigua sulla base delle informazioni fornite.

Creare frasi che finiscono con la parola 'mela'

Ecco la sezione del corpo in formato markdown:

Il modello più grande è stato in grado di generare 10 frasi che terminavano tutte con la parola "Apple":

  1. La croccante e succosa Apple era una delizia da mangiare.
  2. John ha lanciato l'Apple matura nel cestino.
  3. L'albero di mele nel cortile era carico di frutti.
  4. Ha tagliato l'Apple e l'ha aggiunta all'insalata.
  5. La calda torta di mele ha riempito la cucina di un aroma delizioso.
  6. L'insegnante ha distribuito una lucente Mela Rossa a ogni studente.
  7. La mela ricoperta di caramello era una prelibatezza popolare alla fiera della contea.
  8. Il sidro di mele era il perfetto accompagnamento alle foglie autunnali.
  9. I petali dei fiori di melo danzavano nella brezza leggera.
  10. Il ragazzino ha preso avidamente un morso della Mela Verde.

Calcolare il tempo di scavo per un buco di 10 piedi

Ecco la sezione del corpo in formato markdown:

Per calcolare il tempo che impiegherebbero 50 persone a scavare un singolo buco da 10 piedi, possiamo utilizzare un approccio proporzionale:

  • A 1 persona servono 5 ore per scavare un buco da 10 piedi
  • Quindi, a 50 persone servirebbe 1/50 del tempo, ovvero 6 minuti

Il ragionamento è il seguente:

  • Se a 1 persona servono 5 ore, allora a 50 persone servirebbe 1/50 di quel tempo, ovvero 5 ore / 50 = 0,1 ore = 6 minuti.
  • Il tempo di scavo è inversamente proporzionale al numero di persone, quindi raddoppiando il numero di persone si dimezza il tempo di scavo.

Quindi, a 50 persone servirebbero 6 minuti per scavare un singolo buco da 10 piedi.

FAQ