Agenter drivna av Llama 3.1: Testning av funktionsanropsfunktioner

Utforska funktionsanrop och verktygsanvändning i Llama 3.1. Lär dig hur du kan utnyttja observerbarhetsverktyg som LangTrace för att övervaka prestanda hos LLM. Upptäck styrkor och begränsningar hos olika Llama-modellstorlekar vid hantering av komplexa uppgifter.

24 februari 2025

Frigör kraften i Llama 3.1 med denna omfattande guide om dess funktionsanropsfunktioner. Upptäck hur denna banbrytande språkmodell kan utnyttjas som en intelligent agent, som sömlöst integreras med API:er för att hantera komplexa uppgifter. Utforska observerbarhetsaspekterna och få insikter i modellens prestanda, vilket ger dig möjlighet att fatta välgrundade beslut för ditt nästa projekt.

Funktioner hos Llama 3.1 och Meta's Agentic System
Konfigurera LangTrace för observerbarhet
Testa funktionsanrop med Llama 3.1 70B och 8B-modeller
Parallella funktionsanrop och sekventiella funktionsanrop i nästlad struktur
Llama 3.1 8B-modellens svårigheter med funktionsanrop
Groq's fintunade Llama 3-modell för funktionsanrop
Slutsats

Funktioner hos Llama 3.1 och Meta's Agentic System

En av de nyckelförmågorna hos Llama 3.1 som Meta lyfte fram i lanseringen är funktionsanrop eller verktygsanvändning. Författaren ville sätta denna förmåga på prov.

Författaren satte först upp de nödvändiga verktygen och API:erna, inklusive Groq-API:et, som erbjuder ett av de snabbaste API:erna för interaktion med Llama 3.1. De testade 70 miljarder och 8 miljarder Llama 3.1-modellerna, samt en Groq-specifik fintunad version av 70 miljarder-modellen.

Författaren började med ett enkelt exempel på ett enskilt funktionsanrop, och gick sedan vidare till mer komplexa scenarier med parallella och inbäddade funktionsanrop. De använde observationsplattformen LangTrace för att spåra tokenanvändningen och andra mätvärden under experimenten.

Konfigurera LangTrace för observerbarhet

I det här avsnittet kommer vi att sätta upp LangTrace, en öppen källkod- och öppen telemetri-observationsplattform för LLM-applikationer. LangTrace låter oss spåra antalet förfrågningar och tokens som kommuniceras mellan vår lokala miljö och LLM-API:et.

Först måste vi installera de nödvändiga paketen, inklusive LangTrace Python SDK, Groq Python SDK och OpenAI Python SDK (även om vi inte använder OpenAI LLM, är det en beroende av LangTrace SDK).

Nästa steg är att ställa in våra API-nycklar. För det här experimentet behöver vi inte strikt LangTrace, men det kan ge värdefulla insikter om användningen av våra tokens. LangTrace har liknande funktionalitet som LangSmith, en observationsplattform från LangChain, men den stöder ett bredare utbud av leverantörer, inklusive OpenAI, Groq, Cohere och Perplexity.

Testa funktionsanrop med Llama 3.1 70B och 8B-modeller

Författaren börjar med att lyfta fram Metas lansering av ett agentliknande system kring funktionsanrop i Llama 3.1. Eftersom författaren inte har ställt in systemet lokalt, beslutar de sig för att använda Groq-API:et, som erbjuder ett av de snabbaste API:erna för interaktion med Llama 3.1.

Författaren testar 70B- och 8B-Llama 3.1-modellerna, samt en Groq-specifik fintunad version av 70B-modellen. De använder LangTrace, en öppen källkods-observationsplattform för LLM-applikationer, för att spåra antalet förfrågningar och tokens som utbyts mellan den lokala miljön och LLM-API:et.

Parallella funktionsanrop och sekventiella funktionsanrop i nästlad struktur

Llama 3.1-modellen, särskilt 70B-versionen, visade imponerande förmågor när det gäller att hantera parallella funktionsanrop och inbäddade sekventiella funktionsanrop.

När den presenterades med en komplex uppmaning att planera en resa från New York till Paris, inklusive att kontrollera väder, hitta flyg, hotell och attraktioner, kunde 70B-modellen dela upp uppgiften och göra parallella funktionsanrop för att samla in den nödvändiga informationen. Den kombinerade sedan resultaten från de olika funktionerna för att ge en omfattande sammanfattning av reseinformationen.

Llama 3.1 8B-modellens svårigheter med funktionsanrop

Llama 3.1 8B-modellen brottades betydligt med de mer komplexa funktionsanropsuppgifterna jämfört med den större 70B-modellen. Några nyckelobservationer:

För den enkla "hämta matchresultat"-funktionen kunde 8B-modellen hantera den utan problem, liknande 70B-modellen.
Men när det gällde parallella funktionsanrop för uppgifter som reseplanering, strulade 8B-modellen. Den kunde inte ge omfattande information om väder, flyg, hotell och attraktioner, utan hallucinerande ofta detaljer eller misslyckades med att lista tillgängliga alternativ.

Groq's fintunade Llama 3-modell för funktionsanrop

Den 70 miljarder stora LLAMA 3.1-modellen från Groq presterade exceptionellt bra i testerna av funktionsanrop och verktygsanvändning. Den kunde hantera parallella funktionsanrop såväl som inbäddade funktionsanrop med lätthet, vilket demonstrerar dess starka förmågor som ett agentliknande system.

I kontrast brottades den 8 miljarder stora LLAMA 3.1-modellen med dessa mer komplexa uppgifter, vilket belyser vikten av att använda större och mer kapabla språkmodeller för sådana tillämpningar.

FAQ

Vilka funktioner i Llama 3.1 lyfte Meta fram i lanseringen?

Vilken API används i den här videon för att testa funktionsanropsförmågorna hos Llama 3.1?

Vilka Llama 3.1-modeller testas i den här videon?

Vilket observationsverktyg används i den här videon för att spåra användningen av Llama 3.1-modellerna?

Vilka är de viktigaste funktionerna hos 70 miljarder Llama 3.1-modellen som testas i den här videon?

Hur presterar 8 miljarder Llama 3.1-modellen och Groq-specifika funktionsanropsmodellen i testerna?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder