Sblocca potenti capacità di intelligenza artificiale con Qwen-Agent: Chiamata di funzione, Interprete di codice e RAG

Sblocca potenti capacità di intelligenza artificiale con Qwen-Agent, un framework multi-agente open-source che integra il modello di linguaggio Qwen 2 per la chiamata di funzioni, l'interpretazione del codice e la generazione aumentata dal recupero. Scopri come supera RAG e i modelli nativi a lungo contesto.

24 febbraio 2025

party-gif

Sblocca il potere dell'IA con Qwen-Agent, un innovativo framework multi-agente che integra perfettamente il modello di linguaggio avanzato Qwen 2. Scopri come le capacità di questo framework, incluse la chiamata di funzioni, l'interpretazione del codice e la generazione potenziata dal recupero, possono elevare i tuoi progetti guidati dall'IA a nuovi livelli.

Potente framework multi-agente: chiamata di funzioni, interprete di codice e RAG

L'agente Quen è un nuovo e avanzato framework di agenti AI costruito sulla base del grande modello linguistico Quen 2. Integra diverse potenti capacità, tra cui la chiamata di funzioni, l'interprete di codice, la generazione aumentata dal recupero (RAG) e un'estensione per Chrome.

Questo framework mira a creare agenti AI sofisticati in grado di superare altri sistemi multi-agente. Una delle caratteristiche chiave dell'agente Quen è la sua capacità di gestire compiti complessi con una grande dimensione del contesto. Il framework è stato in grado di comprendere documenti con fino a 1 milione di token, superando le prestazioni di RAG e dei modelli nativi a lungo contesto.

L'agente Quen utilizza un approccio in quattro passaggi per generalizzare il grande modello linguistico da una dimensione del contesto di 8K a un contesto di un milione di token:

  1. Modello iniziale: Il framework parte da un debole modello di chat con contesto di 8K.
  2. Sviluppo dell'agente: Il modello viene utilizzato per costruire un agente relativamente forte in grado di gestire il contesto di 1 milione di token.
  3. Sintesi dei dati: L'agente viene utilizzato per sintetizzare dati di fine-tuning di alta qualità, con filtraggio automatico per garantire la qualità.
  4. Fine-tuning del modello: I dati sintetici vengono utilizzati per eseguire il fine-tuning di un modello pre-addestrato, ottenendo un chatbot forte con contesto di 1 milione di token.

Generazione di dati per l'addestramento di nuovi modelli Quin a lungo contesto

Le capacità dell'agente Quen sono organizzate su tre livelli di complessità:

  1. Generazione aumentata dal recupero (RAG): Questo è un approccio semplice che elabora contesti di 1 milione di token, dividendoli in blocchi più brevi e mantenendo i più rilevanti all'interno del contesto di 8K.
  2. Lettura blocco per blocco: Questa strategia bruta forza controlla ogni blocco di 512 token per la rilevanza alla query, recupera i blocchi più rilevanti e genera la risposta finale.
  3. Ragionamento passo dopo passo: Questo approccio utilizza agenti di ragionamento multi-hop e di chiamata di strumenti per rispondere a domande complesse che richiedono la comprensione attraverso più passaggi.

Costruzione dell'agente: tre livelli di complessità

L'agente Quin è stato utilizzato per generare dati per l'addestramento di nuovi modelli Quin a lungo contesto. Questo è un risultato significativo, poiché la preparazione di dati di fine-tuning sufficientemente lunghi è stata una sfida nella ricerca sui grandi modelli linguistici in grado di elaborare nativamente sequenze di milioni di token.

L'approccio utilizzato dall'agente Quin prevede un processo in quattro passaggi:

  1. Modello iniziale: Il processo parte da un debole modello di chat con contesto di 8K come modello iniziale.

  2. Sviluppo dell'agente: In questa fase, l'agente Quin viene utilizzato per costruire un agente relativamente forte in grado di gestire un contesto di 1 milione.

  3. Sintesi dei dati: L'agente viene quindi utilizzato per sintetizzare i dati di fine-tuning, con filtraggio automatico per garantire la qualità.

  4. Fine-tuning del modello: Infine, i dati sintetici vengono utilizzati per eseguire il fine-tuning di un modello pre-addestrato, ottenendo un chatbot forte con contesto di 1 milione.

Generazione aumentata dal recupero (RAG)

L'approccio di ragionamento passo dopo passo utilizza agenti di chiamata di strumenti, che hanno diversi tipi di strumenti, come "Chiedi all'agente LV3 una domanda", "Sotto-domande", "Aggiorna memoria" e altro ancora.

Questo approccio consente al modello di aumentare il contesto a 1 milione di token e migliorare la qualità di varie funzionalità.

Gli esperimenti mostrano che l'agente Quin è in grado di migliorare significativamente la qualità della lunghezza del contesto e le prestazioni rispetto ad altri modelli basati su RAG.

Lettura a blocchi

Il primo livello della costruzione dell'agente consiste in un approccio di Generazione Aumentata dal Recupero (RAG). Questo è un approccio semplice che è stato visto molte volte in precedenza. Elabora un contesto di 1 milione e utilizza l'algoritmo RAG.

Il processo prevede:

  1. Divisione del contesto: Il contesto viene diviso in blocchi più brevi, con ciascun blocco non superiore a 512 token.
  2. Mantenimento dei blocchi rilevanti: Vengono mantenuti solo i blocchi più rilevanti all'interno del contesto di 8K.
  3. Trasformazione dell'istruzione separata: Un'istruzione informativa separata viene utilizzata per distinguere tra la parte di istruzione e la parte di non istruzione delle query degli utenti.
  4. Estrazione delle parole chiave: Il modello è in grado di dedurre parole chiave multilingue dalla parte informativa della query.
  5. Recupero dei blocchi rilevanti: L'algoritmo BM25, un metodo di recupero tradizionale basato sulle parole chiave, viene utilizzato per individuare i blocchi più rilevanti.

Ragionamento passo dopo passo con agenti che chiamano strumenti

Il secondo livello della costruzione dell'agente è l'approccio "Lettura blocco per blocco". I ricercatori hanno scoperto che l'approccio RAG iniziale era abbastanza veloce, ma poteva perdere blocchi rilevanti se non corrispondevano a una parola chiave nella query. Per affrontare questo problema, hanno introdotto una strategia più bruta forza con tre passaggi:

  1. Valutazione della rilevanza: Un modello che controlla ogni blocco di 512 token per la sua rilevanza alla query.
  2. Recupero dei blocchi: Le frasi rilevanti dalla query vengono utilizzate per recuperare i blocchi più rilevanti entro il limite di contesto di 8K, utilizzando l'algoritmo BM25.
  3. Generazione della risposta: La risposta finale viene generata in base al contesto recuperato, in modo simile al metodo RAG.

Esperimenti e miglioramenti delle prestazioni

Nell'ambito del framework dell'agente Quen, l'approccio di ragionamento passo dopo passo viene utilizzato per affrontare la sfida della risposta alle domande basate sui documenti, dove il modello deve eseguire un ragionamento multi-hop per arrivare alla risposta corretta.

Gli aspetti chiave di questo approccio sono:

  1. Agenti strumento multipli: Il framework utilizza più agenti strumento specializzati, come "Chiedi all'agente LV3 una domanda", "Sotto-domande", "Aggiorna memoria" e altri. Questi agenti possono essere chiamati per eseguire passaggi di ragionamento specifici.

  2. Ragionamento iterativo: L'agente parte dalla domanda iniziale e la suddivide in sotto-domande. Chiama quindi gli agenti strumento appropriati per raccogliere le informazioni necessarie, aggiornare la sua memoria interna e infine generare la risposta.

  3. Espansione del contesto: Sfruttando gli agenti strumento, l'agente è in grado di espandere il contesto oltre il limite iniziale di 8K token, consentendogli di gestire domande che richiedono informazioni da un corpus di documenti più ampio.

Iniziare con l'agente Quin

Il framework dell'agente Quin ha dimostrato capacità impressionanti nella gestione di compiti complessi con input a lungo contesto. Attraverso una serie di esperimenti, gli sviluppatori hanno mostrato i significativi miglioramenti delle prestazioni ottenuti da questo nuovo framework di agenti.

Uno dei principali progressi è la capacità di generalizzare il grande modello linguistico da una dimensione del contesto di 8K a un contesto di un milione di token. Ciò è stato ottenuto utilizzando l'approccio multi-livello dell'agente Quin, che include la generazione aumentata dal recupero, la lettura blocco per blocco e il ragionamento passo dopo passo.

Gli esperimenti hanno dimostrato che l'agente Quin può superare gli algoritmi tradizionali di RAG (Generazione Aumentata dal Recupero) e i modelli nativi a lungo contesto in varie capacità. Ciò include la qualità delle risposte generate, la capacità di comprendere e ragionare su documenti lunghi e le prestazioni complessive sui compiti di risposta alle domande basate sui documenti.

Ciao ragazzi, benvenuti a un altro video YouTube al World of AI. In questo video, esamineremo l'agente Quin, un nuovo framework costruito sul grande modello linguistico Quin 2. Questo framework integra capacità avanzate come la chiamata di funzioni, l'interprete di codice, la generazione aumentata dal recupero e un'estensione per Chrome.

Per iniziare con l'agente Quin, dovrai prima andare sul sito web di Pi, che lascerò un link nella descrizione qui sotto. Da lì, puoi installare il framework dell'agente sul tuo desktop. Una volta installato, puoi iniziare a preparare i servizi del modello e a distribuire i tuoi agenti utilizzando i tutorial forniti.

Una delle caratteristiche chiave dell'agente Quin è la sua capacità di utilizzare il nuovo modello Quin 2, che è lo scopo di questo video. Questo nuovo modello è incredibilmente potente ed è considerato il miglior framework di agenti AI open-source disponibile. Può gestire compiti complessi piuttosto bene, e ciò che è davvero impressionante è che sono riusciti a generalizzare il grande modello linguistico da un contesto di 8K a un milione di token, superando le prestazioni di RAG e dei modelli nativi a lungo contesto.

FAQ