Ontgrendel krachtige AI-mogelijkheden met Qwen-Agent: Functie-aanroepen, Code-interpreter en RAG

Ontgrendel krachtige AI-mogelijkheden met Qwen-Agent, een open-source multi-agent framework dat Qwen 2 LLM integreert voor functieaanroepen, code-interpretatie en ophaalversterkte generatie. Ontdek hoe het beter presteert dan RAG en native long-context modellen.

15 februari 2025

party-gif

Ontgrendel de kracht van AI met Qwen-Agent, een state-of-the-art multi-agent framework dat naadloos de geavanceerde Qwen 2 taalmodel integreert. Ontdek hoe de mogelijkheden van dit framework, waaronder functie-aanroepen, code-interpretatie en retrieval-versterkte generatie, uw AI-gedreven projecten naar nieuwe hoogten kunnen tillen.

Krachtig Multi-Agent Framework: Functie-aanroepen, Code-interpreter en RAG

De Quen Agent is een nieuw en geavanceerd AI-agentframework dat is gebouwd op basis van het Quen 2 grote taalmodel. Het integreert verschillende krachtige mogelijkheden, waaronder functieaanroepen, code-interpreter, retrieval augmented generation (RAG) en een Chrome-extensie.

Dit framework heeft als doel om geavanceerde AI-agenten te creëren die andere multi-agent systemen kunnen overtreffen. Een van de belangrijkste kenmerken van de Quen Agent is zijn vermogen om complexe taken aan te kunnen met een grote contextgrootte. Het framework heeft documenten met tot 1 miljoen tokens kunnen begrijpen, wat de prestaties van RAG en native long-context modellen overtreft.

De Quen Agent gebruikt een vierstapsbenadering om het grote taalmodel te generaliseren van een 8K-contextgrootte naar een miljoen-token-context:

  1. Initieel Model: Het framework begint met een zwak 8K-context chatmodel.
  2. Agent Ontwikkeling: Het model wordt gebruikt om een relatief sterke agent op te bouwen die de 1 miljoen-token-context kan verwerken.
  3. Data Synthese: De agent wordt gebruikt om hoogwaardige fine-tuning data te synthetiseren, met geautomatiseerde filtering om de kwaliteit te waarborgen.
  4. Model Fine-tuning: De synthetische data wordt gebruikt om een vooraf getraind model fine-tunen, wat resulteert in een sterke 1 miljoen-token chatbot.

De mogelijkheden van de Quen Agent zijn georganiseerd in drie niveaus van complexiteit:

  1. Retrieval Augmented Generation (RAG): Dit is een eenvoudige benadering die 1 miljoen-token-contexten verwerkt, deze verdeelt in kortere chunks en de meest relevante binnen de 8K-context behoudt.
  2. Chunk-voor-Chunk Lezen: Deze brute-force strategie controleert elke 512-token chunk op relevantie voor de query, haalt de meest relevante chunks op en genereert het uiteindelijke antwoord.
  3. Stap-voor-Stap Redeneren: Deze benadering gebruikt multi-hop redeneren en tool-calling agenten om complexe vragen te beantwoorden die begrip over meerdere stappen vereisen.

De indrukwekkende prestaties van de Quen Agent en zijn vermogen om taken met lange context aan te kunnen, maken het een krachtig open-source AI-agentframework. Ontwikkelaars kunnen aan de slag gaan met de Quen Agent door het framework te installeren vanaf de Pi-website en de beschikbare tutorials te volgen om hun eigen agenten te implementeren en gebruik te maken van het Quen 2 grote taalmodel.

Gegevens genereren voor het trainen van nieuwe Quin-modellen met lange context

De Quin agent werd gebruikt om data te genereren voor het trainen van nieuwe Quin-modellen met lange context. Dit is een belangrijke prestatie, aangezien het voorbereiden van voldoende lange fine-tuning data een uitdaging is geweest in het onderzoek naar grote taalmodellen die sequenties van miljoenen tokens natief kunnen verwerken.

De benadering die de Quin agent gebruikt, omvat een vierstapproces:

  1. Initieel Model: Het proces begint met een zwak 8K-context chatmodel als initieel model.

  2. Agent Ontwikkeling: In deze fase wordt de Quin agent gebruikt om een relatief sterke agent op te bouwen die 1 miljoen context kan verwerken.

  3. Data Synthese: De agent wordt vervolgens gebruikt om de fine-tuning data te synthetiseren, met geautomatiseerde filtering om de kwaliteit te waarborgen.

  4. Model Fine-tuning: Ten slotte wordt de synthetische data gebruikt om een vooraf getraind model fine-tunen, wat resulteert in een sterke 1 miljoen-context chatbot.

Deze benadering maakt gebruik van de mogelijkheden van de Quin agent om de uitdaging van data-voorbereiding voor het trainen van grote taalmodellen met lange contexten te overwinnen. Door de agent te gebruiken om hoogwaardige synthetische data te genereren, konden de onderzoekers een model fine-tunen dat effectief sequenties van tot 1 miljoen tokens kan verwerken, wat de prestaties van traditionele benaderingen zoals RAG en native long-context modellen overtreft.

Het succes van deze benadering benadrukt de kracht van het Quin agent framework en zijn vermogen om de ontwikkeling van geavanceerde AI-systemen mogelijk te maken die complexe taken en langere inhoud kunnen verwerken.

De agent bouwen: drie niveaus van complexiteit

De agentopbouw bestaat uit drie niveaus van complexiteit, elk gebouwd op het vorige:

  1. Retrieval Augmented Generation:

    • Dit is een eenvoudige benadering die een context lengte van 1 miljoen verwerkt.
    • Het gebruikt het RAG (Retrieval Augmented Generation) algoritme.
    • Het verdeelt de context in kortere chunks, elk niet meer dan 512 tokens.
    • Het behoudt alleen de meest relevante chunks binnen de 8K-context.
    • Het heeft drie substappen:
      • Instructie en informatie scheiden: Onderscheidt tussen het instructie- en niet-instructiedeel van de gebruikersquery.
      • Trefwoorden extraheren: Leidt meertalige trefwoorden af uit het informatieve deel van de query.
      • Relevante chunks ophalen: Gebruikt het BM25-algoritme om de meest relevante chunks te lokaliseren.
  2. Chunk-voor-Chunk Lezen:

    • Deze benadering gaat in op de beperkingen van de RAG-benadering, die relevante chunks kan missen als ze niet overeenkomen met een trefwoord in de query.
    • Het omvat drie stappen:
      • Relevantie beoordelen: Een model controleert elke 512-token chunk op relevantie voor de query.
      • Chunks ophalen: De relevante zinnen worden gebruikt om de meest relevante chunks binnen de 8K-contextlimiet op te halen, met behulp van het BM25-algoritme.
      • Antwoord genereren: Het uiteindelijke antwoord wordt gegenereerd op basis van de opgehaalde context, vergelijkbaar met de RAG-methode.
  3. Stap-voor-Stap Redeneren:

    • Deze benadering wordt gebruikt voor document-gebaseerde vraagbeantwoording, waarbij multi-hop redeneren nodig is.
    • Het maakt gebruik van tool-calling agenten, die verschillende soorten tools hebben, zoals "Stel een vraag aan de LV3-agent", "Sub-vragen", "Geheugen bijwerken" en meer.
    • Deze benadering stelt het model in staat de context uit te breiden tot 1 miljoen tokens en de kwaliteit van verschillende functionaliteiten te verbeteren.

De experimenten tonen aan dat de Quin Agent in staat is om de kwaliteit van de contextlengte en de prestaties aanzienlijk te verbeteren in vergelijking met andere RAG-gebaseerde modellen.

Retrieval Augmented Generation (RAG)

Het eerste niveau van de agentopbouw bestaat uit een Retrieval Augmented Generation (RAG) benadering. Dit is een eenvoudige benadering die we al vaker hebben gezien. Het verwerkt een context lengte van 1 miljoen en gebruikt het RAG-algoritme.

Het proces omvat:

  1. Context Verdelen: De context wordt verdeeld in kortere chunks, waarbij elke chunk niet meer dan 512 tokens bevat.
  2. Relevante Chunks Behouden: Alleen de meest relevante chunks binnen de 8K-context worden behouden.
  3. Instructie Transformatie Scheiden: Een afzonderlijke informatie-instructie wordt gebruikt om onderscheid te maken tussen het instructie- en niet-instructiedeel van de gebruikersquery's. Bijvoorbeeld het transformeren van de query "Je moet in 2.000 woorden antwoorden en het moet zo gedetailleerd mogelijk zijn. Mijn vraag is wanneer fietsen zijn uitgevonden?" in een promptstructuur.
  4. Trefwoord Extractie: Het model kan meertalige trefwoorden afleiden uit het informatieve deel van de query.
  5. Relevante Chunk Ophalen: Het BM25-algoritme, een traditionele trefwoord-gebaseerde retrievalmethode, wordt gebruikt om de meest relevante chunks te lokaliseren.

Deze RAG-benadering is snel, maar kan relevante chunks missen als ze niet overeenkomen met een trefwoord in de query.

Stapsgewijs lezen

Het tweede niveau van de agentopbouw is de "Chunk voor Chunk Lezen" benadering. De onderzoekers ontdekten dat de initiële RAG (Retrieval Augmented Generation) benadering vrij snel was, maar dat het relevante chunks kon missen als ze niet overeenkwamen met een trefwoord in de query. Om dit aan te pakken, introduceerden ze een meer brute-force strategie met drie stappen:

  1. Relevantie Beoordelen: Een model dat elke 512-token chunk controleert op relevantie voor de query.
  2. Chunks Ophalen: De relevante zinnen uit de query worden gebruikt om de meest relevante chunks binnen de 8K-contextlimiet op te halen, met behulp van het BM25-algoritme.
  3. Antwoord Genereren: Het uiteindelijke antwoord wordt gegenereerd op basis van de opgehaalde context, vergelijkbaar met de RAG-methode.

Deze Chunk voor Chunk Lezen benadering is grondiger in het waarborgen dat relevante informatie niet wordt gemist, zelfs als deze niet overeenkomt met de exacte trefwoorden in de query. Door elke chunk individueel te controleren en vervolgens de meest relevante op te halen, kan de agent een meer alomvattend begrip van de context opbouwen om een hoogwaardig antwoord te genereren.

Stap-voor-stap redeneren met tool-aanroepende agenten

In het Quen Agent framework wordt de stap-voor-stap redeneeraanpak gebruikt om de uitdaging van document-gebaseerde vraagbeantwoording aan te pakken, waarbij het model multi-hop redeneren moet uitvoeren om tot het juiste antwoord te komen.

De belangrijkste aspecten van deze benadering zijn:

  1. Meerdere Tool Agenten: Het framework maakt gebruik van meerdere gespecialiseerde tool agenten, zoals "Stel een vraag aan de LV3-agent", "Sub-vragen", "Geheugen bijwerken" en anderen. Deze agenten kunnen worden aangeroepen om specifieke redenatiestappen uit te voeren.

  2. Iteratief Redeneren: De agent begint met de initiële vraag en breekt deze op in sub-vragen. Hij roept vervolgens de juiste tool agenten aan om de benodigde informatie te verzamelen, zijn interne geheugen bij te werken en uiteindelijk het antwoord te genereren.

  3. Context Uitbreiding: Door gebruik te maken van de tool agenten, kan de agent de context uitbreiden voorbij de initiële 8K-token limiet, waardoor hij in staat is om vragen te beantwoorden die informatie uit een groter documentencorpus vereisen.

Deze stap-voor-stap redeneeraanpak stelt de Quen Agent in staat om complexe, multi-hop vragen aan te pakken die voor traditionele retrieval-augmented generation modellen uitdagend zouden zijn. Het vermogen om gespecialiseerde tools aan te roepen en iteratief te redeneren, stelt de agent in staat om het probleem op te delen, relevante informatie te verzamelen en uiteindelijk tot een nauwkeuriger en uitgebreider antwoord te komen.

Experimenten en prestatieverbetering

Het Quin agent framework heeft indrukwekkende mogelijkheden getoond in het verwerken van complexe taken met lange context-invoer. Door middel van een reeks experimenten hebben de ontwikkelaars de aanzienlijke prestatieverbetering gedemonstreerd die is bereikt met dit nieuwe agentframework.

Eén van de belangrijkste vooruitgangen is het vermogen om het grote taalmodel te generaliseren van een 8K-contextgrootte naar een miljoen-token-context. Dit werd bereikt door gebruik te maken van de multi-level benadering van de Quin agent, die retrieval-augmented generation, chunk-voor-chunk lezen en stap-voor-stap redeneren omvat.

De experimenten hebben aangetoond dat de Quin agent traditionele RAG (Retrieval-Augmented Generation) algoritmen en native long-context modellen kan overtreffen op verschillende capaciteiten. Dit omvat de kwaliteit van de gegenereerde reacties, het vermogen om lange documenten te begrijpen en er over te redeneren, en de algehele prestaties op document-gebaseerde vraagbeantwoordingstaken.

Bovendien werd de Quin agent gebruikt om hoogwaardige trainingsdata te genereren voor nieuwe Quin-modellen met lange context, wat de mogelijkheden van het onderliggende taalmodel verder verbeterde. Deze aanpak om het agentframework te gebruiken voor het synthetiseren van fine-tuning data is een waardevolle strategie gebleken om de state-of-the-art in grote taalmodellen te verbeteren.

De gedetailleerde resultaten en vergelijkingen van de prestaties van de Quin agent zijn te vinden in de bijgevoegde blogpost, die in de beschrijving hieronder is gelinkt. Deze bron biedt een diepgaandere duik in de technische aspecten en de specifieke verbeteringen die door dit nieuwe agentframework zijn bereikt.

Overal vertegenwoordigt de Quin agent een belangrijke vooruitgang op het gebied van multi-agent systemen en hun vermogen om complexe, langere taken aan te kunnen. Ontwikkelaars en onderzoekers die geïnteresseerd zijn in het verkennen van de mogelijkheden van dit framework, worden aangemoedigd om de beschikbare bronnen en tutorials te raadplegen om aan de slag te gaan.

Aan de slag met de Quin-agent

Hallo allemaal, welkom terug bij een nieuwe YouTube-video van World of AI. In deze video gaan we kijken naar Quin Agent, een nieuw framework dat is gebouwd op basis van het Quin 2 grote taalmodel. Dit framework integreert geavanceerde mogelijkheden zoals functieaanroepen, code-interpreter, retrieval augmented generation en een Chrome-extensie.

Om aan de slag te gaan met Quin Agent, moet je eerst naar de Pi-website gaan, waar ik een link naar zal achterlaten in de beschrijving hieronder. Daar kun je het agentframework installeren op je bureaublad. Eenmaal geïnstalleerd, kun je de modelservices voorbereiden en je eigen agenten implementeren met behulp van de tutorials die ze aanbieden.

Eén van de belangrijkste kenmerken van Quin Agent is het vermogen om gebruik te maken van het nieuwe Quin 2-model, wat het doel is van deze video. Dit nieuwe model is ongelooflijk krachtig en wordt beschouwd als het beste open-source AI-agentframework dat beschikbaar is. Het kan complexe taken goed aan, en wat echt indrukwekkend is, is dat ze erin geslaagd zijn om het grote taalmodel te generaliseren van een 8K-context naar een miljoen tokens, wat de prestaties van RAG en native long-context modellen overtreft.

Om aan de slag te gaan met het nieuwe Quin 2-model, kun je de tutorials op de Pi-

FAQ