Llama 8B Testato - Una delusione sorprendente: Valutazione delle capacità di un LLM molto pubblicizzato

Esplorazione delle capacità e dei limiti del modello di linguaggio Llama 8B molto atteso. Questa valutazione dettagliata ne esamina le prestazioni in una serie di attività, evidenziando sia i punti di forza che gli aspetti sorprendentemente carenti. Una lettura obbligata per chiunque sia interessato agli ultimi sviluppi nei modelli di linguaggio su larga scala.

21 febbraio 2025

party-gif

Scopri le sorprendenti prestazioni del più recente modello Llama 3.1 8B in questa recensione completa. Scopri i punti di forza e di debolezza del modello attraverso una serie di benchmark, dalle attività di codifica al ragionamento logico. Ottieni informazioni che ti aiuteranno a prendere decisioni informate sulle tue esigenze di IA.

Analisi di riferimento: Llama 3.1 8B supera la versione precedente

Il modello Llama 3.1 8B ha visto un significativo miglioramento della qualità rispetto alla sua versione precedente. I risultati dei benchmark mostrano che il nuovo modello supera la versione precedente su varie metriche:

  • BQ: Il modello Llama 3.1 8B ottiene un punteggio migliore sul benchmark BQ, indicando prestazioni migliorate.
  • GSM8K: Il nuovo modello raggiunge un punteggio di 0,57, un miglioramento sostanziale rispetto allo 0,84 della versione precedente.
  • Hellaswag: Il modello Llama 3.1 8B ottiene un punteggio di 46, rispetto al 76 della versione precedente, dimostrando prestazioni migliorate.
  • Valutazione umana: Questo è forse il benchmark più importante e il modello Llama 3.1 8B ha quasi raddoppiato il suo punteggio, da 34 a 68, mostrando un significativo miglioramento della qualità.

Test di Llama 3.1 8B: Output dello script Python e Snake Game

Innanzi tutto, abbiamo testato la capacità del modello di generare uno script Python semplice per produrre i numeri da 1 a 100. Il modello è stato in grado di fornire rapidamente più iterazioni corrette dello script, dimostrando la sua competenza nella programmazione Python di base.

Successivamente, abbiamo sfidato il modello con un compito più complesso: scrivere il gioco del Serpente in Python. Il modello ha inizialmente faticato con questo, fornendo codice che presentava problemi con il movimento e la velocità del serpente. Dopo diversi tentativi e feedback, il modello è stato in grado di generare un codice più vicino a un gioco del Serpente funzionante, ma con ancora alcuni problemi minori. Nel complesso, il modello ha mostrato discrete capacità nella comprensione e nella generazione di codice Python, ma ha faticato con compiti di programmazione più complessi.

Censura e sfide di ragionamento morale

Il modello ha avuto difficoltà nel gestire argomenti sensibili relativi alla censura e al ragionamento morale. Quando gli è stato chiesto di fornire istruzioni per entrare in un'auto o produrre metanfetamine, il modello ha correttamente rifiutato di fornire qualsiasi istruzione, citando la sua incapacità di assistere in attività illegali. Tuttavia, quando sollecitato a fornire informazioni storiche su questi argomenti, la risposta del modello è stata incoerente, a volte interpretando la richiesta come una richiesta di istruzioni.

Per quanto riguarda il dilemma morale se spingere delicatamente una persona a caso per salvare l'umanità dall'estinzione, il modello ha fornito un'analisi attenta delle considerazioni coinvolte, ma alla fine si è rifiutato di dare una risposta definitiva sì o no. Questa esitazione a formulare un giudizio morale chiaro, anche in uno scenario ipotetico estremo, evidenzia le sfide che i sistemi di intelligenza artificiale devono affrontare nel navigare in questioni etiche complesse.

Logica matematica e valutazioni dei problemi di parole

La sezione copre le prestazioni del modello in vari compiti di ragionamento matematico e logico. I punti chiave sono:

  • Il modello è stato in grado di risolvere correttamente il semplice problema aritmetico di "25 - 4 * 2 + 3", dimostrando competenza nelle operazioni matematiche di base.

  • Per il problema del costo della camera d'albergo, il modello ha fornito il calcolo corretto del costo totale, inclusa la tariffa della camera, le tasse e le commissioni aggiuntive.

  • Tuttavia, il modello ha avuto difficoltà a stimare il numero di parole nella risposta precedente, non riuscendo a fornire un conteggio accurato.

  • Il modello non è riuscito nemmeno a risolvere correttamente un classico puzzle di pensiero laterale sul numero di assassini rimasti in una stanza dopo che uno è stato ucciso.

  • Allo stesso modo, il modello non è stato in grado di determinare la posizione di una biglia posta in un bicchiere e poi spostata nel microonde, dimostrando limiti nel ragionamento spaziale.

  • Nel complesso, la sezione evidenzia una prestazione mista, con il modello che eccelle in calcoli matematici semplici ma fatica in compiti logici e di ragionamento più complessi.

Il dilemma della biglia nel bicchiere capovolto

La biglia è inizialmente posizionata all'interno del bicchiere. Quando il bicchiere viene capovolto e posto sul tavolo, la biglia rimane all'interno del bicchiere a causa della forza di gravità. Tuttavia, quando il bicchiere viene poi posto nel microonde, la posizione della biglia diventa incerta. Sebbene il bicchiere e la biglia siano fisicamente spostati nel microonde, la posizione della biglia all'interno del bicchiere non viene definita con certezza. Pertanto, la risposta corretta alla domanda "Dov'è la biglia?" non può essere determinata con certezza sulla base delle informazioni fornite.

Conclusione: delusione per le prestazioni di Llama 3.1 8B

Sono profondamente deluso dalle prestazioni del modello Llama 3.1 8B. Nonostante avessi grandi aspettative per questa versione più piccola ma più capace, le prestazioni del modello nei vari test sono state scarse.

Il modello ha avuto difficoltà con diversi compiti, tra cui:

  • Implementare un gioco del Serpente funzionante in Python
  • Fornire istruzioni per attività non etiche o illegali
  • Rispondere accuratamente a problemi di logica e ragionamento
  • Determinare il numero maggiore tra due numeri
  • Formulare un giudizio morale chiaro sul problema del tram

Sebbene il modello sia stato in grado di gestire alcuni compiti di programmazione di base e semplici problemi matematici, non ha dimostrato il livello di qualità e capacità promesso. La versione Llama 3.1 con 405B parametri potrebbe essere impressionante, ma questa versione da 8B non ha soddisfatto le aspettative.

Continuerò a indagare per vedere se ci sono problemi con la configurazione o l'impostazione che potrebbero influenzare le prestazioni del modello. Tuttavia, sulla base dei risultati, non posso raccomandare questa versione da 8B di Llama 3.1 in questo momento. Il modello semplicemente non ha raggiunto gli elevati standard che avevo fissato per esso.

FAQ