Sblocca il potere dei grandi modelli linguistici: padroneggiare l'estrazione e l'analisi del testo PDF

Sfrutta il potere dei modelli linguistici di grandi dimensioni per sbloccare nuove possibilità nell'estrazione e nell'analisi del testo PDF. Scopri tecniche pratiche per il recupero efficace delle informazioni, l'incorporamento dei documenti e molto altro ancora. Migliora le tue competenze, innova e connettiti con una comunità di professionisti con interessi simili.

14 febbraio 2025

party-gif

Sblocca il potere dei grandi modelli linguistici per trasformare i tuoi documenti basati su testo con il corso RAG Beyond Basics. Progettato per fondatori di SaaS, sviluppatori, dirigenti e appassionati, questo corso ti fornirà tecniche pratiche per analizzare ed interagire in modo efficiente con PDF e altri documenti basati su testo. Acquisisci esperienza pratica nella costruzione di un robusto pacchetto Python che puoi applicare immediatamente ai tuoi progetti.

Di cosa tratta questo corso?

Questo corso è progettato per insegnarti come interagire efficacemente con documenti basati su testo utilizzando il potere dei modelli di linguaggio su larga scala (LLM). L'attenzione sarà incentrata sul lavoro con documenti PDF, in quanto sono il formato più comune riscontrato nel panorama aziendale. Tuttavia, le tecniche che imparerai possono essere applicate a qualsiasi tipo di documento basato su testo.

Il corso inizierà con la costruzione di una pipeline di recupero di base ed esplorerà i suoi diversi componenti. Da lì, ci immergeremo in tecniche più avanzate, come il re-ranking, l'espansione delle query, il recupero di query multiple e l'embedding di documenti ipotetici. Copriremo anche come combinare la ricerca semantica con la ricerca tradizionale basata su parole chiave ed esploreremo l'uso del Pyramid Document Retriever per espandere il contesto recuperato dal modello di embedding.

L'obiettivo non è solo insegnarti cosa sono queste diverse tecniche, ma anche quando e perché utilizzarle. Durante il corso, forniremo esempi di codice pratici per aiutarti a implementare queste tecniche nei tuoi progetti. Alla fine del corso, avrai un pacchetto Python completamente funzionante che potrai utilizzare nel tuo lavoro.

A chi è destinato questo corso?

Il pubblico di destinazione di questo corso sono fondatori di SaaS, sviluppatori, dirigenti e appassionati. Per trarre il massimo vantaggio da questo corso, avrai bisogno di una conoscenza di base di Python. Questo corso ti aiuterà a trasformare le tue brillanti idee in prototipi funzionanti e ad analizzare migliaia di documenti in minuti, non in giorni.

Cosa copriamo in questo corso?

Durante questo corso, copriremo una vasta gamma di argomenti relativi all'interazione con documenti basati su testo utilizzando il potere dei modelli di linguaggio su larga scala (LLM). L'attenzione sarà incentrata sul lavoro con documenti PDF, in quanto sono il formato più comune riscontrato nel panorama aziendale.

Inizieremo costruendo una pipeline di recupero di base ed esplorandone i diversi componenti, implementandoli in codice. Da lì, ci immergeremo in tecniche più avanzate per migliorare le prestazioni della pipeline di recupero, come il re-ranking, l'espansione delle query e il recupero di query multiple.

Ad esempio, esploreremo le tecniche per generare documenti ipotetici in base al problema su cui stai lavorando, note come "embedding di documenti ipotetici". Esamineremo anche i modi per combinare più recuperi per migliorare le prestazioni della pipeline di recupero, combinando tecniche di ricerca semantica con la ricerca tradizionale basata su parole chiave.

Inoltre, tratteremo il Pyramid Document Retriever, una tecnica che aiuta ad espandere il contesto recuperato dal modello di embedding.

Durante il corso, l'attenzione non sarà solo sulla comprensione di queste diverse tecniche, ma anche su quando e perché utilizzarle. Forniremo esempi di codice pratici per dimostrare come applicare queste tecniche in vari scenari.

Il corso coprirà inizialmente questi argomenti, ma poiché il campo del recupero e della generazione utilizzando gli LLM è in costante evoluzione, il corso verrà aggiornato con nuove lezioni e argomenti nel tempo.

Perché dovresti unirti a questo corso?

Questo corso è progettato per fornirvi competenze e conoscenze pratiche per sfruttare il potere dei modelli di linguaggio su larga scala (LLM) nell'interazione con documenti basati su testo, in particolare PDF. Come partecipante, imparerai a costruire pipeline di recupero robuste, applicare tecniche avanzate come il re-ranking, l'espansione delle query e il recupero di query multiple, ed esplorare metodi per generare documenti ipotetici in base alle tue esigenze specifiche.

Il docente, con un dottorato di ricerca e oltre 7 anni di esperienza nel settore a capo di team di machine learning e AI, ha una solida formazione tecnica e una passione per i progetti open source. Ha costruito sistemi che alimentano decine di migliaia di dispositivi per i consumatori e creato uno dei progetti open source RAG più popolari, Local GPT, che conta oltre 19.000 stelle su GitHub.

Partecipando a questo corso, avrai l'opportunità di migliorare le tue competenze, innovare nel tuo campo e connetterti con una comunità di professionisti con interessi simili. Il corso ti fornirà un pacchetto Python completamente funzionante che potrai utilizzare nei tuoi progetti e avrai accesso a un canale dedicato sul server Discord di Prompt Engineering, dove potrai chattare direttamente con il docente e altri colleghi praticanti sugli argomenti trattati nel corso e non solo.

Quali modelli utilizzeremo in questo corso?

Il corso si concentrerà principalmente sull'utilizzo di modelli di linguaggio su larga scala (LLM) e modelli di embedding di OpenAI. Il motivo di questa scelta è che l'API di OpenAI offre un modo semplice e diretto per costruire rapidamente prototipi.

Tuttavia, nella parte finale del corso, esploreremo anche come utilizzare LLM e modelli di embedding locali per eseguire l'intera pipeline in locale, senza fare affidamento su alcuna API esterna. Questo ti darà la flessibilità di utilizzare i modelli di tua scelta e di eseguire il sistema completamente offline.

I modelli specifici che utilizzeremo includono:

  • Il GPT-3 di OpenAI e altri LLM per vari compiti di generazione e comprensione del testo
  • I modelli di embedding di OpenAI per generare rappresentazioni semantiche del testo
  • Modelli LLM e di embedding locali, come quelli di Hugging Face, per consentire deployment completamente offline

Alla fine del corso, avrai una solida comprensione di come sfruttare questi modelli per costruire potenti applicazioni di elaborazione di documenti basati su testo e avrai un pacchetto Python completamente funzionante che potrai utilizzare nei tuoi progetti.

Conclusione

Questo corso su "Beyond Basics" è progettato per dotarti delle conoscenze e delle competenze necessarie per interagire efficacemente con documenti basati su testo utilizzando il potere dei modelli di linguaggio su larga scala (LLM). Che tu sia un fondatore di SaaS, uno sviluppatore, un dirigente o un appassionato, questo corso ti fornirà tecniche pratiche per trasformare le tue idee in prototipi funzionanti e analizzare una vasta quantità di documenti in una frazione del tempo.

Durante il corso, copriremo una vasta gamma di argomenti, tra cui la costruzione di una pipeline di recupero di base, tecniche avanzate come il re-ranking, l'espansione delle query e il recupero di query multiple. Esploreremo anche l'embedding di documenti e come combinare la ricerca semantica con i metodi di ricerca tradizionali basati su parole chiave. Inoltre, approfondiremo l'utilizzo del Pyramid Document Retriever per espandere il contesto recuperato dal modello di embedding.

L'obiettivo di questo corso non è solo comprendere queste tecniche, ma anche quando e perché utilizzarle. Ti verranno forniti esempi di codice pratici per aiutarti a implementare queste strategie nei tuoi progetti. Inoltre, riceverai un pacchetto Python completamente funzionante che potrai utilizzare nei tuoi futuri impegni.

Il corso coprirà inizialmente questi argomenti principali, ma poiché il campo del recupero e della generazione (RAG) è in costante evoluzione, il corso verrà aggiornato con nuove lezioni e contenuti per garantire che tu rimanga all'avanguardia degli ultimi sviluppi.

Il docente, con un dottorato di ricerca e oltre sette anni di esperienza nel settore a capo di team di machine learning e AI, è appassionato di open source e ha creato uno dei progetti open source RAG più popolari, Local GPT, con oltre 19.000 stelle su GitHub. Avrai l'opportunità di interagire direttamente con il docente e con altri praticanti attraverso un canale dedicato sul server Discord di Prompt Engineering, permettendoti di migliorare le tue competenze, innovare nel tuo campo e connetterti con una comunità di professionisti con interessi simili.

Unisciti a noi in questo entusiasmante viaggio per padroneggiare l'arte dell'interazione con documenti basati su testo utilizzando il potere degli LLM e sbloccare nuove possibilità nel tuo campo.

FAQ