Desbloqueie o Poder dos Grandes Modelos de Linguagem: Domine a Extração e Análise de Texto em PDF

Aproveite o poder dos grandes modelos de linguagem para desbloquear novas possibilidades na extração e análise de texto em PDF. Descubra técnicas práticas para recuperação eficaz de informações, incorporação de documentos e muito mais. Melhore suas habilidades, inove e conecte-se com uma comunidade de profissionais com interesses semelhantes.

24 de fevereiro de 2025

Desbloqueie o poder dos grandes modelos de linguagem para transformar seus documentos baseados em texto com o curso RAG Beyond Basics. Projetado para fundadores de SaaS, desenvolvedores, executivos e entusiastas, este curso irá equipá-lo com técnicas práticas para analisar e interagir eficientemente com PDFs e outros documentos baseados em texto. Adquira experiência prática na construção de um pacote Python robusto que você pode aplicar imediatamente em seus próprios projetos.

Do que se trata este curso?
Para quem é este curso?
O que vamos cobrir neste curso?
Por que você deve se juntar a este curso?
Que modelos usaremos neste curso?
Conclusão

Do que se trata este curso?

Este curso foi projetado para ensinar você a interagir efetivamente com documentos baseados em texto usando o poder dos grandes modelos de linguagem (LLMs). O foco será trabalhar com documentos PDF, pois esse é o formato mais comum encontrado no cenário empresarial. No entanto, as técnicas que você aprenderá podem ser aplicadas a qualquer tipo de documento baseado em texto.

O curso começará com a construção de um pipeline básico de recuperação e a exploração de seus diferentes componentes. A partir daí, mergulharemos em técnicas mais avançadas, como re-ranking, expansão de consulta, recuperação de várias consultas e incorporação de documentos hipotéticos. Também abordaremos como combinar a pesquisa semântica com a pesquisa tradicional baseada em palavras-chave e explorar o uso do Pyramid Document Retriever para expandir o contexto recuperado pelo modelo de incorporação.

O objetivo não é apenas ensinar o que são essas diferentes técnicas, mas também quando e por que usá-las. Durante todo o curso, forneceremos exemplos de código práticos para ajudá-lo a implementar essas técnicas em seus próprios projetos. No final do curso, você terá um pacote Python totalmente funcional que poderá usar em seu próprio trabalho.

Para quem é este curso?

O público-alvo deste curso são fundadores de SaaS, desenvolvedores, executivos e entusiastas. Para aproveitar ao máximo este curso, você precisará de conhecimentos básicos em Python. Este curso o ajudará a transformar suas ideias brilhantes em protótipos funcionais e analisar milhares de documentos em minutos, não em dias.

O que vamos cobrir neste curso?

Durante este curso, abordaremos uma ampla gama de tópicos relacionados à interação com documentos baseados em texto usando o poder dos grandes modelos de linguagem (LLMs). O foco será trabalhar com documentos PDF, pois esse é o formato mais comum encontrado no cenário empresarial.

Nós começaremos construindo um pipeline básico de recuperação e explorando seus diferentes componentes, implementando-os em código. A partir daí, mergulharemos em técnicas mais avançadas para melhorar o desempenho do pipeline de recuperação, como re-ranking, expansão de consulta e recuperação de várias consultas.

Adicionalmente, exploraremos técnicas para gerar documentos hipotéticos com base no problema em que você está trabalhando, conhecidas como "incorporação de documentos hipotéticos". Também examinaremos maneiras de combinar múltiplas recuperações para melhorar o desempenho do pipeline de recuperação, combinando técnicas de pesquisa semântica com a pesquisa tradicional baseada em palavras-chave.

Alémdisso, abordaremos o Pyramid Document Retriever, uma técnica que ajuda a expandir o contexto recuperado pelo modelo de incorporação.

Ao longo do curso, o foco não será apenas entender essas diferentes técnicas, mas também quando e por que usá-las. Forneceremos exemplos de código práticos para demonstrar como aplicar essas técnicas em vários cenários.

O curso abordará inicialmente esses tópicos, mas, como o campo da recuperação e geração usando LLMs está em constante evolução, o curso será atualizado com novas aulas e tópicos ao longo do tempo.

Por que você deve se juntar a este curso?

Este curso foi projetado para fornecer a você habilidades e conhecimentos práticos para aproveitar o poder dos grandes modelos de linguagem (LLMs) na interação com documentos baseados em texto, particularmente PDFs. Como participante, você aprenderá a construir pipelines de recuperação robustos, aplicar técnicas avançadas como re-ranking, expansão de consulta e recuperação de várias consultas, e explorar métodos para gerar documentos hipotéticos com base em suas necessidades específicas.

O instrutor, com um doutorado e mais de 7 anos de experiência na indústria liderando equipes de aprendizado de máquina e IA, possui um forte background técnico e uma paixão por projetos de código aberto. Eles construíram sistemas que alimentam dezenas de milhares de dispositivos de consumo e criaram um dos projetos de RAG (Recuperação e Geração) de código aberto mais populares, o Local GPT, que possui mais de 19.000 estrelas no GitHub.

Ao participar deste curso, você terá a oportunidade de aprimorar suas habilidades, inovar em seu campo e se conectar com uma comunidade de profissionais com interesses semelhantes. O curso fornecerá a você um pacote Python totalmente funcional que você pode usar em seus próprios projetos, e você terá acesso a um canal dedicado no servidor do Prompt Engineering Discord, onde poderá conversar diretamente com o instrutor e outros colegas praticantes sobre os tópicos abordados no curso e além.

Que modelos usaremos neste curso?

O curso se concentrará principalmente no uso de grandes modelos de linguagem (LLMs) e modelos de incorporação da OpenAI. A razão para isso é que a API da OpenAI fornece uma maneira simples e direta de construir protótipos rapidamente.

No entanto, na parte final do curso, também exploraremos como usar LLMs e modelos de incorporação locais para executar todo o pipeline localmente, sem depender de nenhuma API externa. Isso lhe dará a flexibilidade de usar os modelos de sua escolha e executar o sistema completamente offline.

Os modelos específicos que usaremos incluem:

O GPT-3 da OpenAI e outros LLMs para várias tarefas de geração e compreensão de texto
Os modelos de incorporação da OpenAI para gerar representações semânticas de texto
Modelos LLM e de incorporação locais, como os da Hugging Face, para permitir implantações totalmente offline

No final do curso, você terá um sólido entendimento de como aproveitar esses modelos para construir aplicativos poderosos de processamento de documentos baseados em texto, e você terá um pacote Python totalmente funcional que poderá usar em seus próprios projetos.

Conclusão

Este curso sobre "Além dos Básicos" foi projetado para equipá-lo com o conhecimento e as habilidades necessárias para interagir efetivamente com documentos baseados em texto usando o poder dos grandes modelos de linguagem (LLMs). Seja você um fundador de SaaS, desenvolvedor, executivo ou entusiasta, este curso lhe fornecerá técnicas práticas para transformar suas ideias em protótipos funcionais e analisar uma grande quantidade de documentos em uma fração do tempo.

Durante o curso, abordaremos uma ampla gama de tópicos, incluindo a construção de um pipeline básico de recuperação, técnicas avançadas como re-ranking, expansão de consulta e recuperação de várias consultas. Também exploraremos a incorporação de documentos e como combinar a pesquisa semântica com os métodos tradicionais de pesquisa baseada em palavras-chave. Além disso, nos aprofundaremos no uso do Pyramid Document Retriever para expandir o contexto recuperado pelo modelo de incorporação.

O foco deste curso não é apenas entender essas técnicas, mas também quando e por que usá-las. Você receberá exemplos de código práticos para ajudá-lo a implementar essas estratégias em seus próprios projetos. Além disso, você receberá um pacote Python totalmente funcional que poderá utilizar em seus empreendimentos futuros.

O curso abordará inicialmente esses tópicos principais, mas, como o campo da recuperação e geração (RAG) está em constante evolução, o curso será atualizado com novas aulas e conteúdo para garantir que você fique na vanguarda dos últimos avanços.

O instrutor, com um doutorado e mais de sete anos de experiência na indústria liderando equipes de aprendizado de máquina e IA, é apaixonado por código aberto e criou um dos projetos de RAG de código aberto mais populares, o Local GPT, com mais de 19.000 estrelas no GitHub. Você terá a oportunidade de interagir diretamente com o instrutor e outros praticantes por meio de um canal dedicado no servidor do Prompt Engineering Discord, permitindo que você aprimore suas habilidades, inove em seu campo e se conecte com uma comunidade de profissionais com interesses semelhantes.

Junte-se a nós nesta emocionante jornada para dominar a arte de interagir com documentos baseados em texto usando o poder dos LLMs e desbloquear novas possibilidades em seu campo.

Perguntas frequentes

O que é o curso RAG Beyond Basics?

Quem é o público-alvo deste curso?

O que será abordado durante o curso?

Quais modelos e ferramentas serão usados no curso?

Por que eu devo fazer este curso?

Crie sua namorada com IA

Crie sua companheira ideal com nosso AI Girlfriend Builder