Débloquez la puissance des modèles de langue de grande taille : Maîtrisez l'extraction et l'analyse de texte PDF

Exploitez la puissance des modèles de langue de grande taille pour débloquer de nouvelles possibilités dans l'extraction et l'analyse de texte PDF. Découvrez des techniques pratiques pour une récupération d'informations efficace, l'intégration de documents et bien plus encore. Améliorez vos compétences, innovez et connectez-vous avec une communauté de professionnels partageant les mêmes idées.

20 février 2025

party-gif

Débloquez la puissance des modèles de langue de grande taille pour transformer vos documents basés sur le texte avec le cours RAG Beyond Basics. Conçu pour les fondateurs de SaaS, les développeurs, les cadres et les passionnés, ce cours vous équipera de techniques pratiques pour analyser et interagir efficacement avec les PDF et d'autres documents basés sur le texte. Acquérez une expérience pratique en construisant un package Python robuste que vous pourrez immédiatement appliquer à vos propres projets.

De quoi ce cours parle-t-il ?

Ce cours est conçu pour vous enseigner comment interagir efficacement avec des documents textuels à l'aide de la puissance des modèles de langage à grande échelle (LLM). L'accent sera mis sur le travail avec les documents PDF, car c'est le format le plus courant rencontré dans le paysage des entreprises. Cependant, les techniques que vous apprendrez peuvent être appliquées à tout type de document textuel.

Le cours commencera par la construction d'un pipeline de récupération de base et l'exploration de ses différents composants. De là, nous plongerons dans des techniques plus avancées, telles que le re-classement, l'expansion de requête, la récupération multi-requête et l'intégration de documents hypothétiques. Nous aborderons également la façon de combiner la recherche sémantique avec la recherche traditionnelle basée sur les mots-clés, et explorerons l'utilisation du Pyramid Document Retriever pour étendre le contexte récupéré par le modèle d'intégration.

L'objectif n'est pas seulement de vous enseigner ce que sont ces différentes techniques, mais aussi quand et pourquoi les utiliser. Tout au long du cours, nous fournirons des exemples de code pratiques pour vous aider à mettre en œuvre ces techniques dans vos propres projets. À la fin du cours, vous aurez un package Python entièrement opérationnel que vous pourrez utiliser dans votre propre travail.

Pour qui ce cours est-il destiné ?

Le public cible de ce cours sont les fondateurs de SaaS, les développeurs, les cadres et les passionnés. Pour tirer le meilleur parti de ce cours, vous aurez besoin d'une connaissance de base en Python. Ce cours vous aidera à transformer vos idées brillantes en prototypes fonctionnels et à analyser des milliers de documents en minutes, pas en jours.

Que couvrirons-nous dans ce cours ?

Au cours de ce cours, nous couvrirons un large éventail de sujets liés à l'interaction avec des documents textuels à l'aide de la puissance des modèles de langage à grande échelle (LLM). L'accent sera mis sur le travail avec les documents PDF, car c'est le format le plus courant rencontré dans le paysage des entreprises.

Nous commencerons par construire un pipeline de récupération de base et explorer ses différents composants, en les implémentant dans le code. De là, nous plongerons dans des techniques plus avancées pour améliorer les performances du pipeline de récupération, comme le re-classement, l'expansion de requête et la récupération multi-requête.

De plus, nous explorerons les techniques de génération de documents hypothétiques basées sur le problème sur lequel vous travaillez, connues sous le nom d'« intégration de documents hypothétiques ». Nous examinerons également les moyens de combiner plusieurs récupérations pour améliorer les performances du pipeline de récupération, en combinant les techniques de recherche sémantique avec la recherche traditionnelle basée sur les mots-clés.

En outre, nous aborderons le Pyramid Document Retriever, une technique qui aide à étendre le contexte récupéré par le modèle d'intégration.

Tout au long du cours, l'accent ne sera pas seulement mis sur la compréhension de ces différentes techniques, mais aussi sur quand et pourquoi les utiliser. Nous fournirons des exemples de code pratiques pour démontrer comment appliquer ces techniques dans différents scénarios.

Le cours couvrira initialement ces sujets, mais comme le domaine de la récupération et de la génération à l'aide des LLM évolue constamment, le cours sera mis à jour avec de nouvelles conférences et de nouveaux sujets au fil du temps.

Pourquoi devriez-vous rejoindre ce cours ?

Ce cours est conçu pour vous fournir des compétences et des connaissances pratiques pour exploiter la puissance des modèles de langage à grande échelle (LLM) dans l'interaction avec les documents textuels, en particulier les PDF. En tant que participant, vous apprendrez à construire des pipelines de récupération robustes, à appliquer des techniques avancées comme le re-classement, l'expansion de requête et la récupération multi-requête, et à explorer des méthodes de génération de documents hypothétiques en fonction de vos besoins spécifiques.

L'instructeur, titulaire d'un doctorat et fort de plus de 7 ans d'expérience dans l'industrie à la tête d'équipes de machine learning et d'IA, possède de solides compétences techniques et une passion pour les projets open source. Il a construit des systèmes alimentant des dizaines de milliers d'appareils grand public et créé l'un des projets open source RAG les plus populaires, Local GPT, qui compte plus de 19 000 étoiles sur GitHub.

En rejoignant ce cours, vous aurez l'opportunité d'améliorer vos compétences, d'innover dans votre domaine et de vous connecter avec une communauté de professionnels partageant les mêmes idées. Le cours vous fournira un package Python entièrement opérationnel que vous pourrez utiliser dans vos propres projets, et vous aurez accès à un canal dédié sur le serveur Discord Prompt Engineering, où vous pourrez discuter directement avec l'instructeur et d'autres praticiens sur les sujets abordés dans le cours et au-delà.

Quels modèles utiliserons-nous dans ce cours ?

Le cours se concentrera principalement sur l'utilisation des modèles de langage à grande échelle (LLM) et des modèles d'intégration d'OpenAI. La raison en est qu'l'API d'OpenAI offre un moyen simple et direct de construire rapidement des prototypes.

Cependant, dans la dernière partie du cours, nous explorerons également comment utiliser des LLM et des modèles d'intégration locaux pour exécuter l'ensemble du pipeline localement, sans dépendre d'aucune API externe. Cela vous donnera la flexibilité d'utiliser les modèles de votre choix et d'exécuter le système complètement hors ligne.

Les modèles spécifiques que nous utiliserons incluent :

  • Les modèles GPT-3 et autres LLM d'OpenAI pour diverses tâches de génération et de compréhension de texte
  • Les modèles d'intégration d'OpenAI pour générer des représentations sémantiques de texte
  • Les modèles LLM et d'intégration locaux, comme ceux de Hugging Face, pour permettre des déploiements entièrement hors ligne

À la fin du cours, vous aurez une compréhension solide de la manière d'exploiter ces modèles pour construire des applications puissantes de traitement de documents textuels, et vous disposerez d'un package Python entièrement opérationnel que vous pourrez utiliser dans vos propres projets.

Conclusion

Ce cours sur « Au-delà des bases » est conçu pour vous doter des connaissances et des compétences nécessaires pour interagir efficacement avec les documents textuels à l'aide de la puissance des modèles de langage à grande échelle (LLM). Que vous soyez un fondateur de SaaS, un développeur, un cadre ou un passionné, ce cours vous fournira des techniques pratiques pour transformer vos idées en prototypes fonctionnels et analyser une grande quantité de documents en une fraction du temps.

Tout au long du cours, nous couvrirons un large éventail de sujets, notamment la construction d'un pipeline de récupération de base, des techniques avancées comme le re-classement, l'expansion de requête et la récupération multi-requête. Nous explorerons également l'intégration de documents et la façon de combiner la recherche sémantique avec les méthodes de recherche traditionnelles basées sur les mots-clés. De plus, nous approfondirons l'utilisation du Pyramid Document Retriever pour étendre le contexte récupéré par le modèle d'intégration.

L'accent de ce cours n'est pas seulement de comprendre ces techniques, mais aussi de savoir quand et pourquoi les utiliser. Vous recevrez des exemples de code pratiques pour vous aider à mettre en œuvre ces stratégies dans vos propres projets. De plus, vous recevrez un package Python entièrement opérationnel que vous pourrez utiliser dans vos futurs projets.

Le cours couvrira initialement ces sujets de base, mais comme le domaine de la récupération et de la génération (RAG) évolue constamment, le cours sera mis à jour avec de nouvelles conférences et de nouveaux contenus pour vous tenir à la pointe des dernières avancées.

L'instructeur, titulaire d'un doctorat et fort de plus de sept ans d'expérience dans l'industrie à la tête d'équipes de machine learning et d'IA, est passionné par l'open source et a créé l'un des projets open source RAG les plus populaires, Local GPT, avec plus de 19 000 étoiles sur GitHub. Vous aurez l'opportunité d'interagir directement avec l'instructeur et d'autres praticiens via un canal dédié sur le serveur Discord Prompt Engineering, vous permettant d'améliorer vos compétences, d'innover dans votre domaine et de vous connecter avec une communauté de professionnels partageant les mêmes idées.

Rejoignez-nous dans ce passionnant voyage pour maîtriser l'art de l'interaction avec les documents textuels à l'aide de la puissance des LLM et déverrouiller de nouvelles possibilités dans votre domaine.

FAQ