Utöka Llama-3:s kontext till 1M+ tokens: Påverkan på prestanda

Utöka Llama-3:s kontext till 1M+ tokens: Utforska effekten på prestanda. Den här blogginlägget undersöker förmågorna hos den förbättrade Llama-3-modellen med ett kontextfönster på en miljon tokens, och analyserar dess prestanda på uppgifter som informationssökning, resonemang och kodningsassistans.

26 mars 2025

Lås upp kraften i utökad kontext med den senaste versionen av Llama-3, nu kapabel att hantera upp till 1 miljon tokens. Upptäck hur denna utveckling påverkar prestanda och utforska dess potential som en mångsidig kodningsassistent och informationssökningsverktyg.

Fördelar med att utöka Llama-3 till 1M+ tokens
Förståelse för nålen i höstacken-testet
Träna 1M+ token Llama-3-modellen
Köra 1M+ token Llama-3-modellen lokalt
Utvärdera modellens prestanda på olika prompter
Begränsningar av den 4-bitars kvantifierade versionen
Llama-3 som en kodningsassistent
Slutsats

Fördelar med att utöka Llama-3 till 1M+ tokens

Den utökade versionen av Llama-3 med ett kontextfönster på upp till 1 miljon tokens visar flera fördelar:

Förbättrad informationshämtning: Det större kontextfönstret gör att modellen bättre kan hämta relevant information från en given input, vilket visas av de imponerande resultaten på "nål i en höstack"-testet.
Förbättrade resoneringsförmågor: Även om resultaten för att hämta flera fakta inte ingick, tyder modellens starka prestanda på hämtning av enskilda fakta på potentiella förbättringar i dess resoneringsförmåga jämfört med modeller med mindre kontextfönster.
Effektiv träning: Träningsprocessen för den utökade Llama-3-modellen var relativt snabb och krävde endast 1,4 miljarder tokens, vilket är mindre än 0,1% av den ursprungliga Llama-3-träningsdatan. Detta effektiva träningsangreppssätt är ett bevis på effektiviteten hos Rope Theta-optimeringstekniken.
Minskade minneskrav: Den 4-bitars kvantiserade versionen av den utökade Llama-3-modellen kan köras på system med så lite som 64 GB VRAM, vilket gör den tillgänglig för en bredare krets av användare och forskare.
Potential för förbättrad prestanda: Den utökade Llama-3-modellen har potential att överträffa den ursprungliga 8-miljarders-parametersmodellen på uppgifter som kräver hämtning och resonemang kring information från långsiktigt innehåll, såsom kodassistans och informationsutvinning.

Sammanfattningsvis representerar den utökade Llama-3-modellen med sitt expanderade kontextfönster ett betydande steg framåt i utvecklingen av stora språkmodeller och visar fördelarna med öppen källkod-ansträngningar i att driva gränserna för vad som är möjligt.

Förståelse för nålen i höstacken-testet

"Nål i en höstack"-testet är ett sätt att utvärdera resonerings- och hämtningsförmågorna hos stora språkmodeller (LLM) som Lama 3. I detta test placeras en slumpmässig fakta eller uttalande mitt i ett större sammanhang ("höstacken"), och modellen ombeds hämta detta uttalande.

Testet innebär att man itererar över olika dokumentdjup och kontextlängder för att mäta modellens prestanda. De viktigaste insikterna från detta test är:

Kontextfönsterstorlek: Större kontextfönster (t.ex. 128 000 tokens för GPT-4) gör att modellen bättre kan hämta en enskild fakta, oavsett var den befinner sig i kontexten. Men när kontextfönstrets storlek ökar, börjar modellens noggrannhet i att hämta flera fakta från kontexten att minska.
Hämtning kontra resonemang: "Nål i en höstack"-testet belyser avvägningen mellan en modells hämtningsförmåga (att hitta en enskild fakta) och dess resoneringsförmåga (att förstå och hämta flera fakta). Större kontextfönster förbättrar hämtningen, men kan negativt påverka modellens resonemangsprestanda.
Lama 3-prestanda: Den utökade versionen av Lama 3 med ett 1 miljon tokens kontextfönster presterar väl på enskilda fakta-hämtningstestet, men författarna inkluderade inte resultat för hämtning av flera fakta. Denna information skulle vara värdefull för att fullt ut förstå modellens förmågor.

Träna 1M+ token Llama-3-modellen

Llama-3-modellen med ett 1 miljon tokens kontextfönster utvecklades genom öppen källkod-ansträngningar. Den ursprungliga Llama-3-modellen hade ett mycket mindre kontextfönster på 8 000 tokens, vilket är betydligt mindre jämfört med andra stora språkmodeller (LLM) som Mistral 7B Instruct, som har ett 32 000 tokens kontextfönster.

Forskarna kunde utöka Llama-3:s kontextfönster till 1 miljon tokens genom att använda en teknik som kallas Rope Theta-optimering. Detta tillät dem att uppnå denna betydande ökning i kontextfönsterstorlek med minimal ytterligare träning, med endast 1,4 miljarder tokens, vilket är mindre än 0,1% av den ursprungliga Llama-3-träningsdatan.

Träningsprocessen innebar att successivt öka kontextfönstrets storlek, från 65 000 tokens, till 260 000 tokens, och slutligen till 1 miljon tokens. Detta stegvisa angreppssätt tillät forskarna att effektivt träna modellen utan överdrivna beräkningsresurser.

Resultaten av denna ansträngning är imponerande, särskilt i "nål i en höstack"-testet, där modellen visar stark prestanda i att hämta en enskild fakta från det stora kontextfönstret. Forskarna inkluderade dock inte resultat för modellens förmåga att hämta flera fakta, vilket skulle vara värdefull information.

Köra 1M+ token Llama-3-modellen lokalt

För att köra 1 miljon tokens-versionen av Llama-3-modellen lokalt måste du använda Llama-implementeringen som tillhandahålls av Anthropic-teamet, känd som OLlama. Här är stegen:

Installera OLlama på ditt system. Du kan hitta instruktioner i de tidigare videorna som nämns i beskrivningen.
Ladda ner Llama-3 Gradient 1 miljon tokens-modellen. Du kan hitta länken i transkriptet.
Kör OLlama-kommandot för att ladda modellen:
```
oma run Llama3-gradient
```
Detta kommer att ladda ner modellen för första gången, vilket kan ta lite tid.
Ställ in kontextfönstret till önskad storlek. I exemplet är kontextfönstret inställt på 256 000 tokens:
```
/set_parameter context_window 256000
```
Tänk på att minneskravet för att köra 1 miljon tokens-modellen kan vara över 100 GB VRAM, så se till att ditt system har tillräckliga resurser.
Testa modellens förmågor genom att prova olika prompter, som att kontrollera dess ocensurerade beteende, resoneringsförmågor och kodassistans.

Utvärdera modellens prestanda på olika prompter

Modellens prestanda testades med en mängd olika prompter för att bedöma dess förmågor:

Ocensurerade prompter: Modellen var relativt ocensurerad jämfört med tidigare versioner, och vägrade ge instruktioner för olagliga aktiviteter som att bryta sig in i en bil. Den var dock villig att ge information om hur man dödar en Linux-process, vilket visar dess förmåga att tillhandahålla teknisk information.
Resoneringsförmågor: Modellen presterade väl på resoneringsuppgifter, identifierade korrekt att det inte finns någon "Sally" i det givna problemet och bestämde antalet bröder. Den kunde också generera ett enkelt skämt, vilket visar dess kreativa förmågor.
Informationshämtning: Modellen presterade väl på hämtningsuppgifter med kort kontext, och besvarade frågorna korrekt baserat på den tillhandahållna informationen. Men när den testades på ett längre 27-sidors dokument med ett irrelevant uttalande, misslyckades modellen med att hämta den irrelevanta informationen och hallucinerande istället svar.

Begränsningar av den 4-bitars kvantifierade versionen

Testningen av den 4-bitars kvantiserade versionen av Llama 3-modellen med ett 1 miljon tokens kontextfönster avslöjade flera begränsningar:

Hallucination och inexakt hämtning: När den presenterades med ett stort 27-sidors sammanhang, hade modellen svårt att exakt hämta specifik information. Istället hallucinerande den ofta irrelevanta detaljer eller genererade text som inte gav mening.
Kvantiseringsartefakter: Den kraftiga kvantiseringen av modellen till 4-bitar verkar ha påverkat dess resonemang- och hämtningsförmågor negativt, särskilt när det gäller långsiktigt innehåll. Detta beror troligen på förlusten av precision under kvantiseringsprocessen.
Potentiella problem med AMA-implementeringen: Författaren misstänker att AMA-implementeringen kanske inte hanterar slut-på-sekvens-token på rätt sätt, vilket skulle kunna bidra till modellens tendens att generera oändliga slingor av text som saknar sammanhang.

Llama-3 som en kodningsassistent

Llama-3-modellen med ett 1 miljon tokens kontextfönster visar lovande förmågor som kodassistent. När den försågs med ett enkelt Python-program som innehöll några fel, kunde modellen identifiera och korrigera problemen i add, subtract och divide-funktionerna.

Modellen visade sin förmåga att förstå kodstrukturen och logiken, och ge korrekt feedback om de identifierade problemen. Detta tyder på att Llama-3 kan vara ett värdefullt verktyg för utvecklare, som hjälper dem att fånga och åtgärda buggar i sin kod mer effektivt.

Slutsats

Den utökade kontextfönsterversionen av Lama 3 visar lovande resultat, särskilt i "nål i en höstack"-testet och kodassistansuppgifter. Modellens prestanda på stora kontexthämtningsuppgifter verkar dock vara begränsad, möjligen på grund av effekterna av kvantisering eller problem med AMA-implementeringen.

Men även om den öppna källkod-gemenskapens ansträngningar att driva gränserna för språkmodeller är berömvärda, har den nuvarande versionen av Lama 3 med ett 1 miljon tokens kontextfönster fortfarande utrymme för förbättring. Bristen på omfattande benchmark-resultat och modellens tendens att halluciner information i stora kontexter är områden som kräver ytterligare undersökning och förfining.

FAQ

Vad är nålen i HCH-testet?

Hur utökade forskarna kontextfönstret för Llama-3?

Vad är minneskraven för att köra 1 miljon tokens-versionen av Llama-3?

Hur presterade den utökade Llama-3-modellen på nålen i HCH-testet jämfört med den ursprungliga modellen?

Hur presterar den utökade Llama-3-modellen på olika referensmätningar jämfört med den ursprungliga modellen?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder