Aproveche el poder de Graph RAG: desbloquee los datos no estructurados con búsqueda semántica, incrustaciones y más

Desbloquea el poder de Graph RAG para la búsqueda semántica, la extracción de información y el análisis de datos avanzado. Explora este marco de generación aumentado por recuperación de código abierto que aprovecha los gráficos de conocimiento para mejorar los modelos de lenguaje a gran escala. Mejora la precisión y la relevancia para consultas complejas.

14 de febrero de 2025

party-gif

Desbloquea el poder de la búsqueda semántica, los incrustados y la búsqueda vectorial con GraphRAG: el motor RAG de código abierto definitivo de Microsoft AI. Descubre cómo esta solución innovadora puede transformar tus capacidades de análisis de datos y respuesta a preguntas, brindando insights más relevantes y confiables.

¿Qué es RAG (Retrieval Augmented Generation)?

RAG (Retrieval Augmented Generation) es un enfoque utilizado para mejorar los modelos de lenguaje grandes existentes mediante la incorporación de conocimiento externo. La idea clave detrás de RAG es combinar el poder de los modelos de lenguaje grandes con la capacidad de recuperar y aprovechar la información relevante de fuentes externas, como bases de conocimiento o corpus de texto.

Los principales beneficios del enfoque RAG son:

  1. Mejor relevancia: Al recuperar e incorporar información relevante, RAG puede proporcionar respuestas más precisas y relevantes, especialmente para preguntas que requieren conocimientos específicos.

  2. Reducción de alucinaciones: Se ha demostrado que RAG reduce la tendencia de los modelos de lenguaje grandes a generar contenido alucinado o fácticamente incorrecto, ya que las respuestas se basan en la información recuperada.

  3. Versatilidad: Además de la respuesta a preguntas, RAG se puede aplicar a diversas tareas de PLN, como extracción de información, recomendación, análisis de sentimientos y resumen.

  4. Manejo de datos privados: RAG puede trabajar con conjuntos de datos privados o sensibles, ya que la información se procesa y almacena localmente, sin necesidad de compartir los datos con servicios externos.

¿Cómo es GraphRAG diferente de los sistemas RAG tradicionales?

GraphRAG es un avance significativo con respecto a los sistemas RAG (Retrieval Augmented Generation) tradicionales. Así es como se diferencia:

  1. Extracción de gráficos de conocimiento: A diferencia de la recuperación basada en texto simple, GraphRAG combina la extracción de texto con el análisis de redes y el prompting de modelos de lenguaje para construir un gráfico de conocimiento integral a partir de los datos de entrada. Esto permite una comprensión más profunda y holística del contenido.

  2. Mejor precisión y relevancia: Al aprovechar el gráfico de conocimiento, GraphRAG puede proporcionar respuestas más precisas y relevantes, especialmente para conjuntos de datos complejos o especializados. El enfoque basado en gráficos ayuda a conectar piezas de información dispares y sintetizar ideas que superan las técnicas RAG de referencia.

  3. Comprensión holística de los datos: GraphRAG sigue un enfoque más integral, mejorando la comprensión general y el resumen de grandes colecciones de datos. Esto lo convierte en una opción superior para aprovechar los modelos de lenguaje grandes en tareas avanzadas de análisis de datos y respuesta a preguntas.

  4. Reducción de alucinaciones: Se ha demostrado que GraphRAG reduce las tendencias de los modelos de lenguaje grandes a generar contenido "alucinado" que no se basa en la información proporcionada. El enfoque basado en gráficos ayuda al modelo a adherirse más estrechamente a la información confiable en el contexto.

  5. Versatilidad: Además de la respuesta a preguntas, GraphRAG se puede aplicar a una variedad de tareas de procesamiento del lenguaje natural, como extracción de información, recomendaciones, análisis de sentimientos y resumen, todo ello en un entorno de almacenamiento privado y local.

Comenzando con GraphRAG

Para comenzar con GraphRAG, sigue estos pasos:

  1. Instalar los requisitos previos:

    • Asegúrate de tener Python instalado en tu sistema.
    • Instala los paquetes requeridos ejecutando pip install graphrag en tu terminal o símbolo del sistema.
  2. Clonar el repositorio:

    • Abre Visual Studio Code (o tu IDE preferido) y crea una nueva carpeta para el proyecto.
    • En la terminal, navega hasta la carpeta del proyecto y ejecuta git clone https://github.com/microsoft/graph-rag.git para clonar el repositorio de GraphRAG.
  3. Configurar el entorno:

    • En la terminal, navega hasta el directorio graph-rag.
    • Exporta tu clave API de OpenAI ejecutando export GRAPHRAG_API_KEY=tu_clave_api_aquí.
  4. Crear una carpeta de entrada:

    • En la terminal, ejecuta mkdir input para crear una carpeta de entrada para tus documentos.
  5. Indexar los documentos:

    • Coloca tus documentos (por ejemplo, archivos de texto, PDF) en la carpeta input.
    • En la terminal, ejecuta python dm_rag_index.py para indexar los documentos.
  6. Chatear con los documentos:

    • En la terminal, ejecuta python dm_graph_rag.py --query "tu_consulta_aquí" --root_dir . --method global.
    • Reemplaza "tu_consulta_aquí" con la pregunta o consulta que deseas hacer sobre los documentos.

GraphRAG ahora utilizará el gráfico de conocimiento que creó durante el proceso de indexación para proporcionar respuestas relevantes y completas a tus consultas, superando las técnicas tradicionales de generación aumentada por recuperación.

Indexación y configuración de GraphRAG

Para comenzar con GraphRAG, deberás seguir estos pasos:

  1. Instalar los requisitos previos:

    • Asegúrate de tener Python instalado en tu sistema.
    • Instala Pip ejecutando el comando proporcionado en tu símbolo del sistema.
  2. Clonar el repositorio:

    • Abre Visual Studio Code y crea una nueva ventana.
    • Abre la terminal haciendo clic en el botón de alternancia del panel.
    • En la terminal, navega al entorno bash y ejecuta el comando pip install graphrag para instalar los paquetes necesarios.
  3. Configurar el entorno:

    • En la terminal, escribe cd graphrag para navegar al repositorio clonado.
    • Exporta tu clave API de OpenAI ejecutando el comando export GRAPHRAG_API_KEY=tu_clave_api_aquí.
  4. Crear una carpeta de entrada:

    • En la terminal, ejecuta el comando mkdir input para crear una carpeta de entrada donde colocarás tus archivos o documentos.
    • Abre la carpeta en VS Code haciendo clic en "Archivo" > "Abrir carpeta" y seleccionando el repositorio clonado.
  5. Indexar el documento:

    • Coloca tu documento (por ejemplo, un informe financiero) en la carpeta de entrada.
    • En la terminal, ejecuta el comando python dm_rrag index para indexar el documento actual.
    • Esto creará un informe de comunidad sobre el documento indexado, que ahora puedes usar para chatear.
  6. Configurar el entorno:

    • En el archivo env, puedes configurar la clave API, el tipo de modelo y otros ajustes.
    • Puedes especificar el uso de un modelo LLAMA o la interfaz de OpenAI.
    • Guarda los cambios en el archivo env.
  7. Ejecutar el código:

    • En la terminal, ejecuta el comando python dm_rrag query --root_folder . --method global --query "tu_consulta_aquí" para comenzar a chatear con el documento indexado.

Siguiendo estos pasos, podrás configurar GraphRAG, indexar tus documentos y comenzar a utilizar las capacidades de generación aumentada por recuperación para mejorar tus tareas de procesamiento del lenguaje natural.

Chatear con GraphRAG

Para chatear con GraphRAG, sigue estos pasos:

  1. Después de indexar el documento usando el comando python dm_rrag index, puedes iniciar el chat ejecutando el comando python dm_rrag query --root_folder . --method global "tu consulta aquí".

  2. Reemplaza "tu consulta aquí" con la pregunta o el mensaje que deseas enviarle a GraphRAG sobre el documento indexado.

  3. GraphRAG entonces utilizará el gráfico de conocimiento que creó durante el proceso de indexación para proporcionar una respuesta relevante e informativa, aprovechando el poder de los modelos de lenguaje grandes y la información estructurada en el gráfico de conocimiento.

  4. Puedes seguir conversando con GraphRAG ejecutando el mismo comando con diferentes consultas. El sistema utilizará el gráfico de conocimiento existente para proporcionar respuestas adaptadas a tus preguntas.

  5. Si deseas cambiar a un modelo de lenguaje diferente, puedes configurarlo en el archivo .env especificando el LLM_TYPE y proporcionando el punto final de la API o la ruta del modelo local apropiados.

  6. El enfoque holístico de GraphRAG para la generación aumentada por recuperación le permite superar a las técnicas RAG de referencia tradicionales, especialmente para conjuntos de datos complejos o privados, al conectar piezas de información dispares y proporcionar ideas sintetizadas.

Preguntas más frecuentes