Desbloquea el poder de los modelos de lenguaje a gran escala: domina la extracción y el análisis de texto PDF

Aprovecha el poder de los modelos de lenguaje a gran escala para desbloquear nuevas posibilidades en la extracción y el análisis de texto PDF. Descubre técnicas prácticas para una recuperación de información eficaz, el incrustado de documentos y más. Mejora tus habilidades, innova y conéctate con una comunidad de profesionales afines.

23 de febrero de 2025

Desbloquea el poder de los modelos de lenguaje a gran escala para transformar tus documentos basados en texto con el curso RAG Beyond Basics. Diseñado para fundadores de SaaS, desarrolladores, ejecutivos y aficionados, este curso te equipará con técnicas prácticas para analizar e interactuar de manera eficiente con PDF y otros documentos basados en texto. Obtén experiencia práctica construyendo un paquete de Python sólido que puedes aplicar de inmediato a tus propios proyectos.

¿De qué se trata este curso?
¿Para quién es este curso?
¿Qué cubriremos en este curso?
¿Por qué deberías unirte a este curso?
¿Qué modelos usaremos en este curso?
Conclusión

¿De qué se trata este curso?

Este curso está diseñado para enseñarte cómo interactuar de manera efectiva con documentos basados en texto utilizando el poder de los modelos de lenguaje a gran escala (LLM). El enfoque será trabajar con documentos PDF, ya que son el formato más común que se encuentra en el panorama empresarial. Sin embargo, las técnicas que aprenderás se pueden aplicar a cualquier tipo de documento basado en texto.

El curso comenzará con la construcción de una pipeline básica de recuperación y la exploración de sus diferentes componentes. A partir de ahí, profundizaremos en técnicas más avanzadas, como el re-ranking, la expansión de consultas, la recuperación de múltiples consultas y el incrustamiento de documentos hipotéticos. También cubriremos cómo combinar la búsqueda semántica con la búsqueda tradicional basada en palabras clave, y exploraremos el uso del Pyramid Document Retriever para expandir el contexto recuperado por el modelo de incrustamiento.

El objetivo no es solo enseñarte qué son estas diferentes técnicas, sino también cuándo y por qué usarlas. A lo largo del curso, proporcionaremos ejemplos de código prácticos para ayudarte a implementar estas técnicas en tus propios proyectos. Al final del curso, tendrás un paquete de Python completamente funcional que podrás usar en tu propio trabajo.

¿Para quién es este curso?

El público objetivo de este curso son los fundadores de SaaS, desarrolladores, ejecutivos y aficionados. Para aprovechar al máximo este curso, necesitarás tener conocimientos previos de Python. Este curso te ayudará a transformar tus ideas brillantes en prototipos funcionales y analizar miles de documentos en minutos, no en días.

¿Qué cubriremos en este curso?

Durante este curso, cubriremos una amplia gama de temas relacionados con la interacción con documentos basados en texto utilizando el poder de los modelos de lenguaje a gran escala (LLM). El enfoque será trabajar con documentos PDF, ya que son el formato más común que se encuentra en el panorama empresarial.

Comenzaremos construyendo una pipeline básica de recuperación y explorando sus diferentes componentes, implementándolos en código. A partir de ahí, nos sumergiremos en técnicas más avanzadas para mejorar el rendimiento de la pipeline de recuperación, como el re-ranking, la expansión de consultas y la recuperación de múltiples consultas.

Además, exploraremos técnicas para generar documentos hipotéticos basados en el problema en el que estés trabajando, conocidas como "incrustamiento de documentos hipotéticos". También veremos formas de combinar múltiples recuperaciones para mejorar el rendimiento de la pipeline de recuperación, combinando técnicas de búsqueda semántica con la búsqueda tradicional basada en palabras clave.

Además, cubriremos el Pyramid Document Retriever, una técnica que ayuda a expandir el contexto recuperado por el modelo de incrustamiento.

A lo largo del curso, el enfoque no solo será comprender estas diferentes técnicas, sino también cuándo y por qué usarlas. Proporcionaremos ejemplos de código prácticos para demostrar cómo aplicar estas técnicas en diversos escenarios.

El curso cubrirá inicialmente estos temas, pero dado que el campo de la recuperación y la generación utilizando LLM está en constante evolución, el curso se actualizará con nuevas lecciones y temas a lo largo del tiempo.

¿Por qué deberías unirte a este curso?

Este curso está diseñado para proporcionarte habilidades y conocimientos prácticos para aprovechar el poder de los modelos de lenguaje a gran escala (LLM) en la interacción con documentos basados en texto, particularmente PDF. Como participante, aprenderás a construir pipelines de recuperación robustas, aplicar técnicas avanzadas como re-ranking, expansión de consultas y recuperación de múltiples consultas, y explorar métodos para generar documentos hipotéticos en función de tus necesidades específicas.

El instructor, con un doctorado y más de 7 años de experiencia en la industria liderando equipos de aprendizaje automático y IA, tiene un sólido bagaje técnico y una pasión por los proyectos de código abierto. Han construido sistemas que alimentan a decenas de miles de dispositivos de consumo y crearon uno de los proyectos de RAG de código abierto más populares, Local GPT, que tiene más de 19,000 estrellas en GitHub.

Al unirte a este curso, tendrás la oportunidad de mejorar tus habilidades, innovar en tu campo y conectarte con una comunidad de profesionales afines. El curso te proporcionará un paquete de Python completamente funcional que podrás usar en tus propios proyectos, y tendrás acceso a un canal dedicado en el servidor de Discord de Prompt Engineering, donde podrás chatear directamente con el instructor y otros compañeros practicantes sobre los temas cubiertos en el curso y más allá.

¿Qué modelos usaremos en este curso?

El curso se centrará principalmente en el uso de modelos de lenguaje a gran escala (LLM) y modelos de incrustamiento de OpenAI. La razón de esto es que la API de OpenAI proporciona una forma sencilla y directa de construir prototipos rápidamente.

Sin embargo, en la parte final del curso, también exploraremos cómo usar modelos de LLM y de incrustamiento locales para ejecutar toda la pipeline de forma local, sin depender de ninguna API externa. Esto te dará la flexibilidad de usar los modelos de tu elección y ejecutar el sistema completamente sin conexión.

Los modelos específicos que utilizaremos incluyen:

El GPT-3 de OpenAI y otros LLM para diversas tareas de generación y comprensión de texto
Los modelos de incrustamiento de OpenAI para generar representaciones semánticas de texto
Modelos de LLM y de incrustamiento locales, como los de Hugging Face, para permitir despliegues completamente sin conexión

Al final del curso, tendrás una sólida comprensión de cómo aprovechar estos modelos para construir aplicaciones poderosas de procesamiento de documentos basados en texto, y tendrás un paquete de Python completamente funcional que podrás usar en tus propios proyectos.

Conclusión

Este curso sobre "Más allá de lo básico" está diseñado para equiparte con los conocimientos y habilidades necesarios para interactuar de manera efectiva con documentos basados en texto utilizando el poder de los modelos de lenguaje a gran escala (LLM). Ya seas un fundador de SaaS, un desarrollador, un ejecutivo o un aficionado, este curso te proporcionará técnicas prácticas para transformar tus ideas en prototipos funcionales y analizar una gran cantidad de documentos en una fracción del tiempo.

A lo largo del curso, cubriremos una amplia gama de temas, incluyendo la construcción de una pipeline básica de recuperación, técnicas avanzadas como el re-ranking, la expansión de consultas y la recuperación de múltiples consultas. También exploraremos el incrustamiento de documentos y cómo combinar la búsqueda semántica con los métodos de búsqueda tradicionales basados en palabras clave. Además, profundizaremos en el uso del Pyramid Document Retriever para expandir el contexto recuperado por el modelo de incrustamiento.

El enfoque de este curso no solo es comprender estas técnicas, sino también cuándo y por qué usarlas. Se te proporcionarán ejemplos de código prácticos para ayudarte a implementar estas estrategias en tus propios proyectos. Además, recibirás un paquete de Python completamente funcional que podrás utilizar en tus futuros emprendimientos.

El curso cubrirá inicialmente estos temas centrales, pero dado que el campo de la recuperación y la generación (RAG) está en constante evolución, el curso se actualizará con nuevas lecciones y contenido para asegurarse de que te mantengas a la vanguardia de los últimos avances.

El instructor, con un doctorado y más de siete años de experiencia en la industria liderando equipos de aprendizaje automático y IA, es apasionado por el código abierto y ha creado uno de los proyectos de RAG de código abierto más populares, Local GPT, con más de 19,000 estrellas en GitHub. Tendrás la oportunidad de interactuar directamente con el instructor y otros practicantes a través de un canal dedicado en el servidor de Discord de Prompt Engineering, lo que te permitirá mejorar tus habilidades, innovar en tu campo y conectarte con una comunidad de profesionales afines.

Únete a nosotros en este emocionante viaje para dominar el arte de interactuar con documentos basados en texto utilizando el poder de los LLM y desbloquear nuevas posibilidades en tu campo.

Preguntas más frecuentes

¿De qué se trata el curso RAG Beyond Basics?

¿A quién está dirigido este curso?

¿Qué se cubrirá durante el curso?

¿Qué modelos y herramientas se utilizarán en el curso?

¿Por qué debería tomar este curso?

Crea tu novia AI

Crea tu compañera ideal con nuestro AI Girlfriend Builder