Google Gemma-2: Approfondimenti tecnici e progressi nei modelli di linguaggio su larga scala
Scopri gli approfondimenti tecnici e le innovazioni dietro i modelli linguistici Gemma-2 di Google. Esplora l'architettura, le tecniche di addestramento e i benchmark di prestazioni che rendono questi grandi modelli linguistici unici. Acquisisci una comprensione più approfondita degli sviluppi in questo campo.
21 febbraio 2025

Sblocca il potere degli ultimi progressi nei modelli linguistici con l'approfondimento tecnico del rapporto Gemma 2. Scopri come l'approccio innovativo di Google alla distillazione della conoscenza e i miglioramenti architettonici hanno portato a prestazioni all'avanguardia su benchmark accademici e applicazioni di chatbot del mondo reale. Questa analisi approfondita fornisce preziose intuizioni che possono aiutarti a sfruttare questi modelli linguistici all'avanguardia per migliorare i tuoi progetti.
Innovazioni architettoniche in Gemma 2
Diversi set di dati di formazione utilizzati
Distillazione della conoscenza: migliorare i modelli più piccoli
Modello di prompt e struttura della conversazione
Sfruttare i dati della chat LMS per prestazioni superiori
Studi di ablazione: validare l'efficacia delle tecniche
Accesso e utilizzo dei modelli Gemma 2
Innovazioni architettoniche in Gemma 2
Innovazioni architettoniche in Gemma 2
Gemma 2, il più recente modello di linguaggio open-source di Google, introduce diverse innovazioni architetturali che contribuiscono alle sue ottime prestazioni. Il modello utilizza un'architettura Transformer a solo decoder, che semplifica il design del modello rispetto alla tradizionale impostazione encoder-decoder.
Una delle principali innovazioni è l'utilizzo di un vocabolario di grandi dimensioni, con 256.000 token. Ciò consente al modello di gestire un'ampia gamma di attività multilingue, nonostante sia stato addestrato principalmente su dati in lingua inglese. Le grandi dimensioni del vocabolario forniscono al modello una ricca comprensione lessicale, permettendogli di ottenere buoni risultati in diversi domini linguistici.
Inoltre, l'architettura di Gemma 2 incorpora diverse modifiche al design standard del Transformer. Queste includono regolazioni al meccanismo di attenzione, alla normalizzazione dei layer e alle connessioni residue, con l'obiettivo di migliorare l'efficienza e l'efficacia del modello. Il rapporto tecnico fornisce approfondimenti dettagliati su queste scelte architetturali e sul loro impatto sulle prestazioni del modello.
Infine, Gemma 2 sfrutta un approccio di distillazione della conoscenza per addestrare varianti di modelli più piccoli, come le versioni da 9 e 27 miliardi di parametri. Grazie alla distillazione della conoscenza da un modello maestro più grande, i modelli studenti più piccoli riescono a ottenere risultati eccellenti pur mantenendo dimensioni più pratiche per la distribuzione. Questa tecnica dimostra il potenziale per addestrare in modo efficiente modelli di linguaggio ad alte prestazioni senza la necessità di enormi set di dati e risorse di calcolo.
Diversi set di dati di formazione utilizzati
Diversi set di dati di formazione utilizzati
I modelli Gemini 2 di Google sono stati addestrati su un insieme diversificato di fonti di dati, tra cui set di dati pubblici interni ed esterni. Gli aspetti chiave dei dati di addestramento sono:
-
Prompt di conversazione LMS: Il team ha utilizzato i prompt (ma non le risposte) del dataset pubblico di prompt di conversazione LMS Chat. Ciò ha permesso ai modelli di apprendere da una vasta gamma di scenari conversazionali senza essere influenzati dalle risposte predeterminate.
-
Dati interni: Oltre ai dati pubblici, il team ha anche utilizzato fonti di dati interne per il pre-addestramento dei modelli. Ciò ha probabilmente fornito ai modelli una base di conoscenza più ampia e diversificata.
-
Filtraggio dei dati: Tutti i dati di addestramento sono stati sottoposti a un rigoroso processo di filtraggio per rimuovere contenuti non sicuri o duplicati. Ciò ha contribuito a garantire che i modelli apprendessero da dati di alta qualità e curati.
-
Tokenizzatore multilingue: I modelli utilizzano un tokenizzatore con un vocabolario di 256.000 token, che consente loro di gestire un'ampia gamma di lingue, incluse quelle non inglesi, durante l'addestramento e l'inferenza.
Distillazione della conoscenza: migliorare i modelli più piccoli
Distillazione della conoscenza: migliorare i modelli più piccoli
Una delle principali sfide nell'addestrare grandi modelli di linguaggio è la necessità di enormi quantità di dati per affinare efficacemente i modelli. Anche i modelli più piccoli della famiglia Gemini 2 richiedono una quantità significativa di dati, con la famiglia Lamda 3 che viene affinata su fino a 15 trilioni di token, con un miglioramento inferiore all'1% rispetto ai modelli all'avanguardia.
Per affrontare questo problema, il team di Gemini 2 ha adottato una tecnica chiamata distillazione della conoscenza. Questo approccio prevede l'utilizzo di un modello "maestro" più grande, come Gemini 1.5 o Colossal-AI, per addestrare un modello "studente" più piccolo. Invece di prevedere direttamente il token successivo, il modello studente viene addestrato a corrispondere alla distribuzione di probabilità del modello maestro, utilizzando la divergenza di Kullback-Leibler (KL) come funzione di perdita.
Questo processo di distillazione della conoscenza viene applicato sia durante la fase di pre-addestramento che durante quella di affinamento per i modelli Gemini 2 più piccoli da 9 e 2 miliardi di parametri. Il modello da 27 miliardi, d'altra parte, viene addestrato da zero senza l'utilizzo della distillazione della conoscenza.
I vantaggi di questo approccio sono due. In primo luogo, consente ai modelli più piccoli di sfruttare la conoscenza e le capacità del modello maestro più grande, migliorando le loro prestazioni su benchmark e attività. Gli studi di ablazione presentati nel documento mostrano che il modello da 2 miliardi di token addestrato con la distillazione della conoscenza raggiunge un punteggio di 67,8, rispetto a soli 60 quando addestrato da zero.
In secondo luogo, il processo di distillazione della conoscenza migliora anche la perplexity dei modelli più piccoli, rendendoli più efficienti durante l'inferenza. Il documento osserva che modificare la dimensione della finestra scorrevole durante l'inferenza ha un effetto minimo sulla perplexity, consentendo velocità di inferenza più elevate senza una significativa degradazione delle prestazioni.
Modello di prompt e struttura della conversazione
Modello di prompt e struttura della conversazione
Il modello Gemini 2 utilizza un modello di prompt specifico per le conversazioni a singolo turno. La struttura del prompt è la seguente:
<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_sequence>
Per un secondo turno nella conversazione, il prompt verrebbe aggiunto come:
<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_turn>
<user_role>
<end_of_sequence>
I punti chiave sono:
- Il prompt inizia con il token
<start_of_conversation>
. - Il token
<user_role>
indica la parte dell'utente nella conversazione. - Il token
<end_of_turn>
separa l'input dell'utente e la risposta del modello. - Il token
<model_role>
indica la parte del modello nella conversazione. - Il token
<end_of_sequence>
segna la fine della conversazione.
Sfruttare i dati della chat LMS per prestazioni superiori
Sfruttare i dati della chat LMS per prestazioni superiori
L'approccio di Google all'addestramento dei modelli Gemma 2 ha comportato l'utilizzo dei prompt del dataset di conversazioni LMS, ma non delle risposte effettive. Invece, hanno utilizzato il modello maestro per generare risposte per questi prompt, che sono state poi utilizzate per addestrare i modelli studenti attraverso la distillazione della conoscenza.
Questa strategia presenta diversi potenziali vantaggi:
-
Evitare i pregiudizi: Non utilizzando le risposte predeterminate del dataset di conversazioni LMS, il modello è incoraggiato a essere più creativo e flessibile nelle sue uscite, anziché limitarsi a imitare i pregiudizi presenti nel dataset.
-
Sfruttare l'esperienza del modello maestro: Il modello maestro, più grande e più capace, viene utilizzato per generare risposte di alta qualità per i prompt di conversazione LMS. Queste risposte vengono quindi utilizzate per addestrare i modelli studenti, consentendo loro di beneficiare dell'esperienza del maestro.
-
Miglioramento delle prestazioni sui benchmark LMS: Il processo di distillazione della conoscenza, combinato con l'utilizzo dei prompt di conversazione LMS, probabilmente aiuta i modelli Gemma 2 a ottenere risultati migliori sui benchmark e sulle attività correlate a LMS, in quanto sono stati specificamente addestrati su questo tipo di dati.
Studi di ablazione: validare l'efficacia delle tecniche
Studi di ablazione: validare l'efficacia delle tecniche
Il documento presenta importanti studi di ablazione che convalidano l'efficacia delle tecniche utilizzate nell'addestramento dei modelli Gemini 2. Questi studi forniscono preziose informazioni:
-
Impatto della distillazione della conoscenza: L'ablazione mostra che per il modello più piccolo da 2 miliardi, l'addestramento da zero raggiunge solo un punteggio medio di benchmark di 60, mentre il processo di distillazione della conoscenza lo aumenta a 67,8 - un miglioramento sostanziale. Ciò dimostra il potere della distillazione della conoscenza nel migliorare le prestazioni dei modelli più piccoli, senza la necessità di enormi quantità di dati di addestramento.
-
Dimensione della finestra scorrevole: Gli esperimenti rivelano che modificare la dimensione della finestra scorrevole durante l'inferenza ha un impatto minimo sulla perplexity. Ciò significa che i modelli possono raggiungere velocità di inferenza più elevate regolando la dimensione della finestra, con solo una riduzione trascurabile delle prestazioni. Questa flessibilità è fondamentale per una distribuzione pratica.
-
Fusione delle iterazioni del modello: Il documento menziona che gli autori hanno utilizzato una tecnica di fusione di più iterazioni dei modelli per migliorare ulteriormente le prestazioni. Questo approccio di media dei modelli aiuta a stabilizzare l'addestramento e a migliorare la qualità del modello finale.
-
Filtraggio di sicurezza: I modelli incorporano uno strato di sicurezza che filtra le uscite non sicure o duplicate. Questa è una considerazione pratica importante per distribuire questi grandi modelli di linguaggio in applicazioni del mondo reale.
Accesso e utilizzo dei modelli Gemma 2
Accesso e utilizzo dei modelli Gemma 2
I modelli Gemma 2 sono prontamente disponibili per l'uso. Il modo più semplice per accedervi è attraverso Google AI Studio, dove i modelli sono forniti nella sezione "Modelli". Inoltre, i pesi dei modelli sono disponibili anche sulla piattaforma Hugging Face, consentendovi di integrarli nel vostro codice.
Per utilizzare i modelli Gemma 2, dovrete seguire uno specifico modello di prompt. Il prompt dovrebbe iniziare con token speciali, seguiti dal ruolo dell'utente, dal token di fine turno, dal ruolo del modello e dal token di fine sequenza. Per un secondo turno, dovrete aggiungere la stessa struttura di prompt alla fine del precedente, assicurandovi che il token di fine sequenza sia presente.
I modelli Gemma 2 sono disponibili in due versioni: il modello da 9 miliardi di parametri e il modello da 27 miliardi di parametri. Entrambe le versioni sono disponibili per l'uso, e potete scegliere quella che meglio si adatta alle vostre esigenze. I modelli sono stati addestrati utilizzando una combinazione di dati interni ed esterni pubblici, inclusi i prompt del dataset LMS chart, ma senza le risposte corrispondenti.
Il processo di distillazione della conoscenza utilizzato nell'addestramento dei modelli Gemma 2 più piccoli ha mostrato risultati promettenti, con il modello da 2 miliardi di parametri che supera il modello da 6 miliardi di parametri addestrato da zero su vari benchmark. Questa tecnica potrebbe essere un approccio prezioso per addestrare modelli più piccoli senza sacrificare le prestazioni.
FAQ
FAQ