Google Gemma-2: Tekniska insikter och genombrott i stora språkmodeller
Upptäck de tekniska insikterna och genombrotten bakom Googles Gemma-2-språkmodeller. Utforska arkitekturen, träningstekniker och prestandamätningar som gör dessa stora språkmodeller framstående. Få en djupare förståelse för framstegen inom detta område.
24 februari 2025

Lås upp kraften i de senaste framstegen inom språkmodeller med en djupdykning i den tekniska rapporten om Gemma 2. Upptäck hur Googles innovativa tillvägagångssätt för kunskapsavstämning och arkitektoniska förbättringar har lett till topprestanda på akademiska referensmätningar och chattbotapplikationer i verkligheten. Denna omfattande analys ger värdefulla insikter som kan hjälpa dig att utnyttja dessa banbrytande språkmodeller för att förbättra dina egna projekt.
Arkitektoniska innovationer i Gemma 2
Mångfaldiga träningsdata som används
Kunskapsöverföring: Förbättring av mindre modeller
Promptmall och konversationsstruktur
Utnyttjande av LMS-chattdata för överlägsen prestanda
Ablationsstudier: Validering av teknikernas effektivitet
Åtkomst och användning av Gemma 2-modeller
Arkitektoniska innovationer i Gemma 2
Arkitektoniska innovationer i Gemma 2
Gemma 2, Googles senaste öppna källkodsspråkmodell, introducerar flera arkitektoniska innovationer som bidrar till dess starka prestanda. Modellen använder en dekoder-endast Transformer-arkitektur, vilket förenklar modelldesignen jämfört med den traditionella encoder-decoder-konfigurationen.
En nyckelinnovation är användningen av en stor ordförrådsvolym på 256 000 tokens. Detta gör att modellen kan hantera ett brett utbud av flerspråkiga uppgifter, trots att den främst är tränad på engelska data. Den stora ordförrådsvolymen ger modellen en rik lexikal förståelse, vilket möjliggör goda resultat över olika språkdomäner.
Dessutom inkorporerar Gemma 2-arkitekturen flera modifieringar av standardtransformatordesignen. Dessa inkluderar justeringar av uppmärksamhetsmekanism, lagernormalisering och residualanslutningar, som syftar till att förbättra modellens effektivitet och effektivitet. Den tekniska rapporten ger detaljerade insikter i dessa arkitektoniska val och deras inverkan på modellens prestanda.
Mångfaldiga träningsdata som används
Mångfaldiga träningsdata som används
Googles Gemini 2-modeller tränades på en mångsidig uppsättning datakällor, inklusive både interna och externa offentliga dataset. De viktigaste aspekterna av träningsdatan är:
-
LMS Chat-prompter: Teamet använde prompterna (men inte svaren) från LMS Chat-datauppsättningen, en offentlig uppsättning av konversationspromptningar. Detta gjorde att modellerna kunde lära sig från ett brett utbud av konversationsscenarier utan att påverkas av de förutbestämda svaren.
-
Intern data: Förutom de offentliga data använde teamet även interna datakällor för förträning av modellerna. Detta gav troligen modellerna en bredare och mer mångsidig kunskapsbas.
-
Datafiltrering: All träningsdata genomgick en noggrann filtreringsprocess för att ta bort osäkert eller duplicerat innehåll. Detta hjälpte till att säkerställa att modellerna lärde sig från högkvalitativ, kurerad data.
Kunskapsöverföring: Förbättring av mindre modeller
Kunskapsöverföring: Förbättring av mindre modeller
En av de största utmaningarna vid träning av stora språkmodeller är behovet av enorma mängder data för att effektivt finslipa dem. Även de mindre modellerna i Gemini 2-familjen kräver en betydande mängd data, där Lamda 3-familjen finslipas på upp till 15 biljoner tokens, vilket resulterar i mindre än 1 % förbättring jämfört med toppmodeller.
För att hantera denna fråga har Gemini 2-teamet antagit en teknik som kallas kunskapsöverföring. Denna metod innebär att använda en större "lärar"-modell, som Gemini 1.5 eller Colossal-AI, för att träna en mindre "elev"-modell. Istället för att direkt förutsäga nästa token tränas elevmodellen att matcha lärarmodellens sannolikhetsfördelning, med Kullback-Leibler (KL)-divergens som förlustkostnadsfunktion.
Denna kunskapsöverföringsprocess tillämpas under både förtränings- och finslipningsfaserna för de mindre 9 och 2 miljarder parameter Gemini 2-modellerna. Den 27 miljarder parametersmodellen tränas däremot från grunden utan användning av kunskapsöverföring.
Promptmall och konversationsstruktur
Promptmall och konversationsstruktur
Gemini 2-modellen använder en specifik promptmall för enkla konversationer. Promptstrukturen ser ut så här:
<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_sequence>
För en andra vändning i konversationen skulle prompten läggas till som:
<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_turn>
<user_role>
<end_of_sequence>
De viktiga punkterna är:
- Prompten börjar med
<start_of_conversation>
-token. <user_role>
-token indikerar användarens del av konversationen.<end_of_turn>
-token separerar användarens indata och modellens svar.<model_role>
-token indikerar modellens del av konversationen.<end_of_sequence>
-token markerar slutet av konversationen.
Utnyttjande av LMS-chattdata för överlägsen prestanda
Utnyttjande av LMS-chattdata för överlägsen prestanda
Googles tillvägagångssätt för att träna Gemma 2-modellerna innebar att utnyttja prompterna från LMS chat-datauppsättningen, men inte de faktiska svaren. Istället använde de lärarmodellen för att generera svar för dessa prompter, som sedan användes för att träna elevmodellerna genom kunskapsöverföring.
Denna strategi har flera potentiella fördelar:
-
Undvika bias: Genom att inte använda de förutbestämda svaren från LMS chat-datauppsättningen uppmuntras modellen att vara mer kreativ och flexibel i sina utdata, snarare än att bara efterlikna de bias som finns i datauppsättningen.
-
Utnyttja lärarmodellens expertis: Den större och mer kapabla lärarmodellen används för att generera högkvalitativa svar på LMS chat-prompterna. Dessa svar används sedan för att träna elevmodellerna, vilket låter dem dra nytta av lärarens expertis.
Ablationsstudier: Validering av teknikernas effektivitet
Ablationsstudier: Validering av teknikernas effektivitet
Gemma 2-modellerna är lättillgängliga för användning. Det enklaste sättet att komma åt dem är genom Google AI Studio, där modellerna finns tillgängliga under avsnittet "Modeller". Modellvikterna finns även på Hugging Face-plattformen, vilket gör att du kan integrera dem i din egen kodbasera.
För att använda Gemma 2-modellerna måste du följa en specifik promptmall. Prompten bör börja med specialtokens, följt av användarens roll, sluttokenet för vändningen, modellens roll och sluttokenet för sekvensen. För en andra vändning måste du lägga till samma promptstruktur i slutet av den föregående, och se till att sluttokenet för sekvensen finns där.
Gemma 2-modellerna finns i två versioner: 9 miljarder parametrar och 27 miljarder parametrar. Båda versionerna är tillgängliga för användning, och du kan välja den som bäst passar dina behov. Modellerna har tränats med en kombination av interna och externa offentliga data, inklusive prompter från LMS chat-datauppsättningen, men utan de motsvarande svaren.
FAQ
FAQ