Frigör kraften hos stora språkmodeller: Behärska PDF-textutvinning och -analys
Utnyttja kraften hos stora språkmodeller för att öppna upp nya möjligheter inom PDF-textutvinning och -analys. Upptäck praktiska tekniker för effektiv informationshämtning, dokumentinbäddning och mer. Förbättra dina färdigheter, innovera och anslut dig till en gemenskap av likasinnade yrkesverksamma.
15 februari 2025

Lås upp kraften hos stora språkmodeller för att transformera dina textbaserade dokument med RAG Beyond Basics-kursen. Utformad för SaaS-grundare, utvecklare, chefer och hobbyister, denna kurs kommer att utrusta dig med praktiska tekniker för att effektivt analysera och interagera med PDF-filer och andra textbaserade dokument. Få praktisk erfarenhet av att bygga ett robust Python-paket som du omedelbart kan tillämpa på dina egna projekt.
Vad handlar den här kursen om?
För vem är den här kursen?
Vad kommer vi att gå igenom i den här kursen?
Varför bör du gå med i den här kursen?
Vilka modeller kommer vi att använda i den här kursen?
Slutsats
Vad handlar den här kursen om?
Vad handlar den här kursen om?
Den här kursen är utformad för att lära dig hur du effektivt kan interagera med textbaserade dokument med hjälp av kraftfulla språkmodeller (LLM). Fokus kommer att ligga på att arbeta med PDF-dokument, eftersom de är det vanligaste formatet som förekommer i affärsvärlden. Dock kan de tekniker du lär dig tillämpas på alla typer av textbaserade dokument.
Kursen börjar med att bygga en grundläggande hämtningspipeline och utforska dess olika komponenter. Därifrån kommer vi att fördjupa oss i mer avancerade tekniker som omrankning, frågeexpansion, multifrågehämtning och hypotetisk dokumentinbäddning. Vi kommer också att behandla hur man kombinerar semantisk sökning med traditionell nyckelordbaserad sökning, och utforska användningen av Pyramid Document Retriever för att utöka den kontext som hämtas av inbäddningsmodellen.
Målet är inte bara att lära dig vad dessa olika tekniker är, utan också när och varför man ska använda dem. Under hela kursen kommer vi att ge praktiska kodexempel för att hjälpa dig att implementera dessa tekniker i dina egna projekt. I slutet av kursen kommer du att ha ett fullt fungerande Python-paket som du kan använda i ditt eget arbete.
För vem är den här kursen?
För vem är den här kursen?
Målgruppen för den här kursen är SaaS-grundare, utvecklare, chefer och hobbyister. För att få ut så mycket som möjligt av den här kursen behöver du ha bakgrund i Python. Kursen kommer att hjälpa dig att förvandla dina geniala idéer till fungerande prototyper och analysera tusentals dokument på minuter, inte dagar.
Vad kommer vi att gå igenom i den här kursen?
Vad kommer vi att gå igenom i den här kursen?
Under den här kursen kommer vi att täcka ett brett spektrum av ämnen relaterade till interaktion med textbaserade dokument med hjälp av kraftfulla språkmodeller (LLM). Fokus kommer att ligga på att arbeta med PDF-dokument, eftersom de är det vanligaste formatet som förekommer i affärsvärlden.
Vi kommer att börja med att bygga en grundläggande hämtningspipeline och utforska dess olika komponenter, och implementera dem i kod. Därifrån kommer vi att fördjupa oss i mer avancerade tekniker för att förbättra prestandan hos hämtningspipelinen, som omrankning, frågeexpansion och multifrågehämtning.
Dessutom kommer vi att utforska tekniker för att generera hypotetiska dokument baserade på det problem du arbetar med, så kallad "hypotetisk dokumentinbäddning". Vi kommer också att titta på sätt att kombinera flera hämtningar för att förbättra prestandan hos hämtningspipelinen, genom att kombinera semantisk sökning med traditionell nyckelordbaserad sökning.
Vidare kommer vi att behandla Pyramid Document Retriever, en teknik som hjälper till att utöka den kontext som hämtas av inbäddningsmodellen.
Genom hela kursen kommer fokus inte bara att ligga på att förstå dessa olika tekniker, utan också på när och varför man ska använda dem. Vi kommer att ge praktiska kodexempel för att visa hur man tillämpar dessa tekniker i olika scenarier.
Varför bör du gå med i den här kursen?
Varför bör du gå med i den här kursen?
Den här kursen är utformad för att ge dig praktiska färdigheter och kunskap för att utnyttja kraften hos stora språkmodeller (LLM) i interaktion med textbaserade dokument, särskilt PDF-filer. Som deltagare kommer du att lära dig hur man bygger robusta hämtningspipelines, tillämpar avancerade tekniker som omrankning, frågeexpansion och multifrågehämtning, och utforskar metoder för att generera hypotetiska dokument baserade på dina specifika behov.
Instruktören, med en doktorsexamen och över 7 års branscherfarenhet av att leda maskininlärnings- och AI-team, har en stark teknisk bakgrund och ett engagemang för öppen källkod. De har byggt system som driver tiotusentals konsumentenheter och skapat ett av de mest populära öppna källkods-RAG-projekten, Local GPT, som har över 19 000 stjärnor på GitHub.
Genom att delta i den här kursen kommer du att ha möjlighet att förbättra dina färdigheter, innovera inom ditt område och koppla upp dig med ett nätverk av likasinnade yrkesverksamma. Kursen kommer att ge dig ett fullt fungerande Python-paket som du kan använda i dina egna projekt, och du kommer att ha tillgång till en dedikerad kanal på Prompt Engineering Discord-servern, där du kan prata direkt med instruktören och andra medverkande om de ämnen som tas upp i kursen och mer därutöver.
Vilka modeller kommer vi att använda i den här kursen?
Vilka modeller kommer vi att använda i den här kursen?
Kursen kommer främst att fokusera på att använda stora språkmodeller (LLM) och inbäddningsmodeller från OpenAI. Anledningen till detta är att OpenAIs API ger ett enkelt och rakt sätt att snabbt bygga prototyper.
Men i den senare delen av kursen kommer vi också att utforska hur man använder lokala LLM- och inbäddningsmodeller för att köra hela pipelinen lokalt, utan att förlita sig på några externa API:er. Detta kommer att ge dig flexibiliteten att använda de modeller du föredrar och köra systemet helt offline.
De specifika modeller vi kommer att använda inkluderar:
- OpenAIs GPT-3 och andra LLM för olika textgenerings- och förståelseuppgifter
- OpenAIs inbäddningsmodeller för att generera semantiska representationer av text
- Lokala LLM- och inbäddningsmodeller, som de från Hugging Face, för att möjliggöra helt offlinebaserade distributioner
I slutet av kursen kommer du att ha en solid förståelse för hur du kan utnyttja dessa modeller för att bygga kraftfulla textbaserade dokumentbearbetningsapplikationer, och du kommer att ha ett fullt fungerande Python-paket som du kan använda i dina egna projekt.
FAQ
FAQ