Valutazione delle prestazioni di Phi-3-Mini su RAG, Routing e Agenti

Valutazione delle prestazioni di Phi-3-Mini su RAG, routing e agenti. Esplorazione delle capacità del modello in casi d'uso pratici, incluse semplici query RAG, decomposizione di query complesse e orchestrazione degli agenti.

17 febbraio 2025

party-gif

Questo post del blog esplora le capacità del modello di linguaggio Phi-3-Mini in casi d'uso pratici, inclusi il recupero, l'instradamento delle query e i framework basati su agenti. Il contenuto fornisce un'analisi dettagliata delle prestazioni del modello in vari compiti, offrendo informazioni sui suoi punti di forza e limiti. I lettori acquisiranno una migliore comprensione dell'idoneità del modello per applicazioni del mondo reale.

Semplice Recupero e RAG

Il modello si comporta in modo ragionevole su semplici compiti di recupero utilizzando la pipeline RAG (Retrieval-Augmented Generation). Quando gli viene posta una semplice query come "in che modo OpenAI e Meta differiscono sugli strumenti di intelligenza artificiale", il modello è in grado di fornire una risposta accurata condensando i pertinenti blocchi di testo e generando un riassunto coerente.

Tuttavia, quando le query diventano più complesse, il modello inizia a mostrare alcune limitazioni. Ad esempio, quando gli viene chiesto "quali sono le nuove funzionalità aggiunte da OpenAI a ChatGPT", il modello attribuisce in modo errato alcune funzionalità introdotte da Meta a OpenAI, mostrando una tendenza ad allucinare o confondere le informazioni provenienti da fonti diverse.

Le prestazioni del modello migliorano quando si utilizza la modalità "tree summarize", che riassume in modo ricorsivo ogni blocco di testo prima di generare la risposta finale. Questo approccio aiuta a mitigare il problema delle informazioni contrastanti tra i vari blocchi.

Complessivamente, il modello dimostra una discreta capacità per semplici compiti di recupero utilizzando RAG, ma le sue prestazioni iniziano a peggiorare quando si confronta con query più complesse che richiedono una comprensione più approfondita delle informazioni di base.

Query Complesse e Limitazioni RAG

Le prestazioni del modello su query complesse rivelano alcune limitazioni dell'approccio RAG (Retrieval-Augmented Generation). Mentre gestisce in modo ragionevole le query semplici, fatica con le query più complesse che comportano informazioni contrastanti tra i diversi blocchi di documenti.

Quando gli è stato chiesto delle nuove funzionalità introdotte da OpenAI, il modello ha attribuito in modo errato alcune funzionalità che in realtà erano state introdotte da Meta. Ciò suggerisce che il modello ha difficoltà a riconciliare e sintetizzare le informazioni provenienti da più fonti, soprattutto quando ci sono discrepanze o contraddizioni.

Le capacità di decomposizione delle query del modello, tuttavia, sembrano più promettenti. Quando gli è stata presentata una query complessa, il modello è stato in grado di suddividerla in sottoquestioni pertinenti e recuperare le informazioni di conseguenza. Ciò suggerisce che il modello ha una certa comprensione della struttura sottostante della query e può tentare di affrontarla in modo più sistematico.

Nel contesto dell'orchestrazione degli agenti, le prestazioni del modello sono state miste. Per le query semplici, è stato in grado di determinare che non era necessario alcuno strumento e di generare una risposta autonomamente. Tuttavia, per le query più complesse, il modello ha faticato a utilizzare in modo efficace gli strumenti disponibili per fornire una risposta esauriente.

Complessivamente, i risultati indicano che, sebbene il modello abbia alcune capacità nel gestire i compiti basati su RAG, ha ancora limitazioni quando si tratta di query complesse e orchestrazione degli agenti. Ulteriori miglioramenti nella capacità del modello di riconciliare informazioni contrastanti, sintetizzare la conoscenza ed utilizzare in modo efficace gli strumenti esterni sarebbero necessari per renderlo più robusto per questo tipo di applicazioni.

Routing delle Query e Decomposizione delle Query

Le prestazioni del modello sui compiti di routing delle query e di decomposizione delle query sono state miste.

Per il routing delle query, il modello è stato in grado di utilizzare in modo efficace le descrizioni degli strumenti forniti per determinare quale archivio vettoriale utilizzare per rispondere a specifiche query. Quando gli è stata posta una domanda su informazioni relative a Meta, il modello ha correttamente identificato lo "Strumento vettoriale" come risorsa appropriata e ha fornito una risposta pertinente. Allo stesso modo, quando gli è stata posta una domanda più specifica sul numero di chatbot guidati dalla personalità introdotti da Meta, il modello ha nuovamente utilizzato il corretto archivio vettoriale per recuperare le informazioni accurate.

Tuttavia, quando al modello è stato permesso di selezionare più strumenti, le sue prestazioni sono diminuite. Per una query che chiedeva delle principali funzionalità introdotte da OpenAI e altre aziende, il modello ha attribuito in modo errato informazioni su Tesla e Apple, che non erano menzionate nel documento originale. Ciò suggerisce che il modello fatica ancora con il routing delle query complesse e potrebbe allucinare informazioni quando tenta di combinare più fonti.

Il modello ha avuto prestazioni migliori sui compiti di decomposizione delle query. Quando gli è stata presentata una query complessa sulle differenze tra il modo in cui vengono discusse Meta e OpenAI, il modello è stato in grado di suddividerla in tre sottoquestioni, recuperando le informazioni pertinenti per ciascuna e sintetizzando una risposta finale. Le sottoquestioni generate erano logiche e la risposta complessiva forniva un confronto ragionevole tra le due aziende.

In sintesi, il modello mostra promesse nelle capacità di base di routing delle query, ma le sue prestazioni peggiorano per le query più complesse che richiedono la combinazione di informazioni da più fonti. Le capacità di decomposizione delle query sono più robuste, il che indica che il modello può suddividere ed affrontare in modo efficace domande complesse. Tuttavia, potrebbero essere necessari ulteriori affinamenti per sfruttare appieno il potenziale del modello in casi d'uso pratici.

Agenti e Operazioni Matematiche

I test condotti sul modello Retrieval-Augmented Generation (RAG) rivelano alcuni interessanti spunti sulle sue capacità e limitazioni:

  1. Query RAG semplici: Il modello si comporta in modo ragionevole su semplici query RAG, fornendo risposte accurate in base alle informazioni disponibili nel documento.

  2. Query RAG complesse: Quando si confronta con query più complesse che comportano informazioni contrastanti tra i diversi blocchi di documenti, il modello fatica e tende ad allucinare o a classificare in modo errato le informazioni.

  3. Routing delle query: Il modello dimostra la capacità di eseguire il routing delle query, dove può selezionare l'archivio vettoriale appropriato per recuperare le informazioni pertinenti in base alla query. Ciò suggerisce che il modello possa gestire compiti che richiedono la comprensione dei metadati e delle capacità di diverse fonti di informazione.

  4. Decomposizione delle query: Il modello è in grado di scomporre le query complesse in sottoquestioni e recuperare le informazioni per rispondervi individualmente, per poi combinare i risultati. Ciò mostra le potenzialità del modello nel gestire esigenze informative complesse.

  5. Orchestrazione degli agenti: Quando testato in un framework basato su agenti, il modello mostra capacità limitate. Fatica a utilizzare in modo efficace gli strumenti forniti, soprattutto per compiti più complessi che coinvolgono operazioni matematiche. Il modello sembra preferire eseguire i calcoli da solo piuttosto che sfruttare gli strumenti disponibili.

  6. Operazioni matematiche: Interessante notare che il modello sembra avere una migliore padronanza nell'esecuzione di semplici operazioni matematiche da solo, senza affidarsi agli strumenti forniti. Ciò suggerisce che il modello possa avere alcune capacità di ragionamento matematico intrinseco.

Complessivamente, i risultati indicano che il modello RAG ha potenziale per alcune applicazioni, come il semplice recupero di informazioni e il routing delle query. Tuttavia, le sue prestazioni su compiti più complessi, inclusa l'orchestrazione degli agenti e la gestione di informazioni contrastanti, sono limitate. Ulteriori progressi nelle capacità di ragionamento del modello e nell'integrazione con strumenti esterni potrebbero essere necessari per sfruttare appieno le sue capacità in casi d'uso pratici.

FAQ