Ontgrendel de kracht van grote taalmodellen: beheers PDF-tekstextractie en -analyse
Benut de kracht van grote taalmodellen om nieuwe mogelijkheden te ontgrendelen in PDF-tekstextractie en -analyse. Ontdek praktische technieken voor effectieve informatiewinning, documentinbedding en meer. Verbeter uw vaardigheden, innoveer en maak verbinding met een gemeenschap van gelijkgestemde professionals.
20 februari 2025

Ontgrendel de kracht van grote taalmodellen om uw tekstgebaseerde documenten te transformeren met de RAG Beyond Basics-cursus. Ontworpen voor SaaS-oprichters, ontwikkelaars, executives en hobbyisten, deze cursus zal u voorzien van praktische technieken om efficiënt PDF's en andere tekstgebaseerde documenten te analyseren en ermee te interageren. Krijg hands-on ervaring met het bouwen van een robuust Python-pakket dat u direct kunt toepassen op uw eigen projecten.
Waar gaat deze cursus over?
Voor wie is deze cursus bedoeld?
Wat zullen we in deze cursus behandelen?
Waarom zou je deze cursus moeten volgen?
Welke modellen zullen we in deze cursus gebruiken?
Conclusie
Waar gaat deze cursus over?
Waar gaat deze cursus over?
Deze cursus is ontworpen om u te leren hoe u effectief kunt omgaan met tekstgebaseerde documenten met behulp van de kracht van grote taalmodellen (LLM's). De focus zal liggen op het werken met PDF-documenten, aangezien dit het meest voorkomende formaat is in de zakelijke omgeving. De technieken die u zult leren, kunnen echter worden toegepast op elk type tekstgebaseerd document.
De cursus begint met het bouwen van een basale ophaalpijplijn en het verkennen van de verschillende onderdelen ervan. Vervolgens duiken we dieper in op meer geavanceerde technieken, zoals herwaardering, query-expansie, multi-query-ophaling en hypothetische documentembedding. We zullen ook bespreken hoe u semantisch zoeken kunt combineren met traditioneel zoeken op trefwoorden, en de toepassing van de Pyramid Document Retriever om de context die door het embeddings model wordt opgehaald, uit te breiden.
Het doel is niet alleen om u te leren wat deze verschillende technieken zijn, maar ook wanneer en waarom u ze moet gebruiken. Tijdens de cursus zullen we praktische codevoorbeelden geven om u te helpen deze technieken in uw eigen projecten te implementeren. Aan het einde van de cursus zult u een volledig werkend Python-pakket hebben dat u in uw eigen werk kunt gebruiken.
Voor wie is deze cursus bedoeld?
Voor wie is deze cursus bedoeld?
De beoogde doelgroep voor deze cursus zijn SaaS-oprichters, ontwikkelaars, executives en hobbyisten. Om optimaal te profiteren van deze cursus, heeft u een achtergrond in Python nodig. Deze cursus zal u helpen om uw briljante ideeën om te zetten in werkende prototypes en duizenden documenten in minuten, in plaats van dagen, te analyseren.
Wat zullen we in deze cursus behandelen?
Wat zullen we in deze cursus behandelen?
Tijdens deze cursus zullen we een breed scala aan onderwerpen behandelen die verband houden met het omgaan met tekstgebaseerde documenten met behulp van de kracht van grote taalmodellen (LLM's). De focus zal liggen op het werken met PDF-documenten, aangezien dit het meest voorkomende formaat is in de zakelijke omgeving.
We beginnen met het bouwen van een basale ophaalpijplijn en het verkennen van de verschillende onderdelen ervan, waarbij we ze in code implementeren. Vervolgens duiken we dieper in op meer geavanceerde technieken om de prestaties van de ophaalpijplijn te verbeteren, zoals herwaardering, query-expansie en multi-query-ophaling.
Bovendien zullen we technieken verkennen voor het genereren van hypothetische documenten op basis van het probleem waaraan u werkt, ook wel bekend als "hypothetische documentembedding". We zullen ook kijken naar manieren om meerdere ophalingen te combineren om de prestaties van de ophaalpijplijn te verbeteren, door semantisch zoeken te combineren met traditioneel zoeken op trefwoorden.
Verder zullen we de Pyramid Document Retriever behandelen, een techniek die helpt om de context die door het embeddings model wordt opgehaald, uit te breiden.
De focus tijdens de cursus zal niet alleen liggen op het begrijpen van deze verschillende technieken, maar ook op wanneer en waarom u ze moet gebruiken. We zullen praktische codevoorbeelden geven om te laten zien hoe u deze technieken in verschillende scenario's kunt toepassen.
Waarom zou je deze cursus moeten volgen?
Waarom zou je deze cursus moeten volgen?
Deze cursus is ontworpen om u praktische vaardigheden en kennis te bieden om de kracht van grote taalmodellen (LLM's) te benutten bij het omgaan met tekstgebaseerde documenten, vooral PDF's. Als deelnemer zult u leren hoe u robuuste ophaallijnen kunt bouwen, geavanceerde technieken als herwaardering, query-expansie en multi-query-ophaling kunt toepassen, en methoden voor het genereren van hypothetische documenten op basis van uw specifieke behoeften kunt verkennen.
De docent, met een Ph.D. en meer dan 7 jaar ervaring in de industrie bij het leiden van machine learning- en AI-teams, heeft een sterke technische achtergrond en een passie voor open-source projecten. Hij heeft systemen gebouwd die tienduizenden consumentenapparaten aansturen en een van de populairste open-source RAG-projecten, Local GPT, met meer dan 19.000 sterren op GitHub, gecreëerd.
Door deel te nemen aan deze cursus krijgt u de kans om uw vaardigheden te verbeteren, te innoveren in uw vakgebied en contact te leggen met een gemeenschap van gelijkgestemde professionals. De cursus zal u voorzien van een volledig werkend Python-pakket dat u in uw eigen projecten kunt gebruiken, en u zult toegang hebben tot een speciale kanaal op de Prompt Engineering Discord-server, waar u rechtstreeks kunt chatten met de docent en andere mede-beoefenaars over de onderwerpen die in de cursus aan bod komen en daarbuiten.
Welke modellen zullen we in deze cursus gebruiken?
Welke modellen zullen we in deze cursus gebruiken?
De cursus zal zich in eerste instantie richten op het gebruik van grote taalmodellen (LLM's) en embeddings modellen van OpenAI. De reden hiervoor is dat de API van OpenAI een eenvoudige en rechtstreekse manier biedt om snel prototypes te bouwen.
In het latere deel van de cursus zullen we echter ook verkennen hoe u lokale LLM's en embeddings modellen kunt gebruiken om de hele pijplijn lokaal uit te voeren, zonder afhankelijk te zijn van externe API's. Dit zal u de flexibiliteit geven om de modellen van uw keuze te gebruiken en het systeem volledig offline te laten draaien.
De specifieke modellen die we zullen gebruiken, zijn:
- OpenAI's GPT-3 en andere LLM's voor verschillende taken op het gebied van tekstgeneratie en -begrip
- OpenAI's embeddings modellen voor het genereren van semantische representaties van tekst
- Lokale LLM- en embeddings modellen, zoals die van Hugging Face, om volledig offline implementaties mogelijk te maken
Aan het einde van de cursus zult u een solide begrip hebben van hoe u deze modellen kunt inzetten om krachtige toepassingen voor tekstgebaseerde documentverwerking op te bouwen, en zult u een volledig werkend Python-pakket hebben dat u in uw eigen projecten kunt gebruiken.
FAQ
FAQ