Desbloquea Poderosas Capacidades de IA con Qwen-Agent: Llamada de Función, Intérprete de Código y RAG

Desbloquea poderosas capacidades de IA con Qwen-Agent, un marco de trabajo multiagente de código abierto que integra el LLM Qwen 2 para la llamada de funciones, la interpretación de código y la generación aumentada de recuperación. Descubre cómo supera a RAG y a los modelos nativos de contexto largo.

21 de febrero de 2025

party-gif

Desbloquea el poder de la IA con Qwen-Agent, un marco de trabajo multiagente de vanguardia que integra sin problemas el avanzado modelo de lenguaje grande Qwen 2. Descubre cómo las capacidades de este marco, que incluyen la llamada de funciones, la interpretación de código y la generación mejorada por recuperación, pueden elevar tus proyectos impulsados por IA a nuevas alturas.

Poderoso marco multiagente: llamada de función, intérprete de código y RAG

El agente Quen es un nuevo y avanzado marco de trabajo de agentes de IA construido sobre el modelo de lenguaje grande Quen 2. Integra varias capacidades poderosas, incluyendo la llamada de funciones, el intérprete de código, la generación aumentada por recuperación (RAG) y una extensión de Chrome.

Este marco de trabajo tiene como objetivo crear agentes de IA sofisticados que puedan superar a otros sistemas multiagente. Una de las características clave del agente Quen es su capacidad para manejar tareas complejas con un tamaño de contexto grande. El marco de trabajo ha podido entender documentos de hasta 1 millón de tokens, superando el rendimiento de RAG y los modelos nativos de contexto largo.

El agente Quen utiliza un enfoque de cuatro pasos para generalizar el modelo de lenguaje grande de un tamaño de contexto de 8K a un contexto de un millón de tokens:

  1. Modelo inicial: El marco de trabajo comienza con un modelo de chat de contexto débil de 8K.
  2. Desarrollo del agente: El modelo se utiliza para construir un agente relativamente fuerte capaz de manejar el contexto de 1 millón de tokens.
  3. Síntesis de datos: El agente se utiliza para sintetizar datos de ajuste fino de alta calidad, con filtrado automatizado para garantizar la calidad.
  4. Ajuste fino del modelo: Los datos sintéticos se utilizan para ajustar finamente un modelo pre-entrenado, dando como resultado un chatbot fuerte de 1 millón de tokens de contexto.

Generación de datos para el entrenamiento de nuevos modelos Quin de contexto largo

El agente Quin se utilizó para generar datos para el entrenamiento de nuevos modelos Quin de contexto largo. Este es un logro significativo, ya que preparar datos de ajuste fino lo suficientemente largos ha sido un desafío en la investigación sobre modelos de lenguaje grande que pueden procesar nativamente secuencias de millones de tokens.

El enfoque utilizado por el agente Quin implica un proceso de cuatro pasos:

  1. Modelo inicial: El proceso comienza con un modelo de chat de contexto débil de 8K como modelo inicial.

  2. Desarrollo del agente: En esta fase, se utiliza el agente Quin para construir un agente relativamente fuerte capaz de manejar 1 millón de contexto.

  3. Síntesis de datos: Luego, se utiliza el agente para sintetizar los datos de ajuste fino, con un filtrado automatizado para garantizar la calidad.

  4. Ajuste fino del modelo: Finalmente, los datos sintéticos se utilizan para ajustar finamente un modelo pre-entrenado, dando como resultado un chatbot de 1 millón de contexto fuerte.

Construyendo el agente: tres niveles de complejidad

El agente construido consta de tres niveles de complejidad, cada uno construido sobre el anterior:

  1. Generación aumentada por recuperación:

    • Este es un enfoque simple que procesa una longitud de contexto de 1 millón.
    • Utiliza el algoritmo RAG (Generación Aumentada por Recuperación).
    • Divide el contexto en trozos más cortos, cada uno sin exceder los 512 tokens.
    • Retiene solo los trozos más relevantes dentro del contexto de 8K.
    • Tiene tres sub-pasos:
      • Separar instrucción e información: Distingue entre las partes de instrucción y no instrucción de la consulta del usuario.
      • Extraer palabras clave: Deduce palabras clave multilingües de la parte informativa de la consulta.
      • Recuperar trozos relevantes: Utiliza el algoritmo BM25 para ubicar los trozos más relevantes.
  2. Lectura trozo por trozo:

    • Este enfoque aborda las limitaciones del enfoque RAG, que puede perder trozos relevantes si no coinciden con una palabra clave en la consulta.
    • Incluye tres pasos:
      • Evaluar relevancia: Un modelo verifica cada trozo de 512 tokens para determinar su relevancia para la consulta.
      • Recuperar trozos: Las oraciones relevantes se utilizan para recuperar los trozos más relevantes dentro del límite de contexto de 8K, utilizando el algoritmo BM25.
      • Generar respuesta: La respuesta final se genera en función del contexto recuperado, similar al método RAG.
  3. Razonamiento paso a paso:

    • Este enfoque se utiliza para la respuesta a preguntas basadas en documentos, donde se requiere un razonamiento de varios saltos.
    • Utiliza agentes de llamada de herramientas, que tienen varios tipos de herramientas, como "Preguntarle al agente LV3", "Sub-preguntas", "Actualizar memoria", y más.
    • Este enfoque permite que el modelo aumente el contexto a 1 millón de tokens y mejore la calidad de varias funcionalidades.

Generación aumentada por recuperación (RAG)

El primer nivel de la construcción del agente consiste en un enfoque de Generación Aumentada por Recuperación (RAG). Este es un enfoque simple que se ha visto muchas veces antes. Procesa una longitud de contexto de 1 millón y utiliza el algoritmo RAG.

El proceso implica:

  1. División del contexto: El contexto se divide en trozos más cortos, sin que cada trozo exceda los 512 tokens.
  2. Retención de trozos relevantes: Solo se retienen los trozos más relevantes dentro del contexto de 8K.
  3. Transformación de instrucción separada: Se utiliza una instrucción de información separada para distinguir entre las partes de instrucción y no instrucción de las consultas de los usuarios. Por ejemplo, transformar la consulta "Debes responder en 2,000 palabras y debe ser lo más detallado posible. Mi pregunta es cuándo se inventaron las bicicletas?" en una estructura de indicación.
  4. Extracción de palabras clave: El modelo puede deducir palabras clave multilingües de la parte informativa de la consulta.
  5. Recuperación de trozos relevantes: Se utiliza el algoritmo BM25, un método tradicional de recuperación basado en palabras clave, para ubicar los trozos más relevantes.

Lectura por fragmentos

El segundo nivel de la construcción del agente es el enfoque de "Lectura trozo por trozo". Los investigadores encontraron que el enfoque inicial de RAG (Generación Aumentada por Recuperación) era bastante rápido, pero podía perder trozos relevantes si no coincidían con una palabra clave en la consulta. Para abordar esto, introdujeron una estrategia más brutal con tres pasos:

  1. Acceso a relevancia: Un modelo que verifica cada trozo de 512 tokens para determinar su relevancia para la consulta.
  2. Recuperación de trozos: Las oraciones relevantes de la consulta se utilizan para recuperar los trozos más relevantes dentro del límite de contexto de 8K, utilizando el algoritmo BM25.
  3. Generación de respuesta: La respuesta final se genera en función del contexto recuperado, similar al método RAG.

Razonamiento paso a paso con agentes de llamada de herramientas

En el marco de trabajo del agente Quen, el enfoque de razonamiento paso a paso se utiliza para abordar el desafío de la respuesta a preguntas basadas en documentos, donde el modelo necesita realizar un razonamiento de varios saltos para llegar a la respuesta correcta.

Los aspectos clave de este enfoque son:

  1. Múltiples agentes de herramientas: El marco de trabajo utiliza múltiples agentes de herramientas especializados, como "Preguntarle al agente LV3", "Sub-preguntas", "Actualizar memoria" y otros. Estos agentes pueden ser llamados para realizar pasos de razonamiento específicos.

  2. Razonamiento iterativo: El agente comienza con la pregunta inicial y la divide en sub-preguntas. Luego llama a los agentes de herramientas apropiados para recopilar la información necesaria, actualizar su memoria interna y finalmente generar la respuesta.

  3. Expansión de contexto: Al aprovechar los agentes de herramientas, el agente puede expandir el contexto más allá del límite inicial de 8K tokens, lo que le permite manejar preguntas que requieren información de un corpus de documentos más amplio.

Experimentos y mejoras de rendimiento

El marco de trabajo del agente Quin ha demostrado capacidades impresionantes para manejar tareas complejas con entradas de contexto largo. A través de una serie de experimentos, los desarrolladores han mostrado las mejoras de rendimiento significativas logradas por este nuevo marco de trabajo de agentes.

Uno de los avances clave es la capacidad de generalizar el modelo de lenguaje grande de un tamaño de contexto de 8K a un contexto de un millón de tokens. Esto se logró utilizando el enfoque de múltiples niveles del agente Quin, que incluye generación aumentada por recuperación, lectura trozo por trozo y razonamiento paso a paso.

Los experimentos han demostrado que el agente Quin puede superar a los algoritmos tradicionales de RAG (Generación Aumentada por Recuperación) y a los modelos nativos de contexto largo en varias capacidades. Esto incluye la calidad de las respuestas generadas, la capacidad de entender y razonar sobre documentos de larga extensión y el rendimiento general en tareas de respuesta a preguntas basadas en documentos.

Además, el agente Quin se utilizó para generar datos de entrenamiento de alta calidad para nuevos modelos Quin de contexto largo, mejorando aún más las capacidades del modelo de lenguaje subyacente. Este enfoque de aprovechar el marco de trabajo del agente para sintetizar datos de ajuste fino ha demostrado ser una estrategia valiosa para avanzar en el estado del arte de los modelos de lenguaje grande.

Primeros pasos con el agente Quin

Hola, ¿qué tal, chicos? Bienvenidos a otro video de YouTube en el World of AI. En el video de hoy, vamos a echar un vistazo al Agente Quin, un nuevo marco de trabajo construido sobre el modelo de lenguaje grande Quin 2. Este marco de trabajo integra capacidades avanzadas como la llamada de funciones, el intérprete de código, la generación aumentada por recuperación y una extensión de Chrome.

Para comenzar con el Agente Quin, primero tendrás que ir al sitio web de Pi, que dejaré un enlace en la descripción a continuación. Desde allí, puedes instalar el marco de trabajo del agente en tu escritorio. Una vez que lo tengas instalado, puedes comenzar a preparar los servicios del modelo y desplegar tus propios agentes utilizando los tutoriales que proporcionan.

Una de las características clave del Agente Quin es su capacidad para utilizar el nuevo modelo Quin 2, que es el propósito de este video. Este nuevo modelo es increíblemente poderoso y se considera el mejor marco de trabajo de agentes de IA de código abierto disponible. Puede manejar tareas complejas bastante bien, y lo que es realmente impresionante es que lograron generalizar el modelo de lenguaje grande de un contexto de 8K a un millón de tokens, superando el rendimiento de RAG y los modelos nativos de contexto largo.

Para comenzar con el nuevo modelo Quin 2, puedes seguir los tutoriales en el sitio web de Pi. Tienen muchos recursos excelentes que mostrarán lo que puedes hacer con este nuevo marco de trabajo. Definitivamente te recomiendo que lo revises, ya que es un cambio de juego en el mundo del desarrollo de agentes de IA.

Así que, si estás interesado en explorar las capacidades del Agente Quin y el nuevo modelo Quin 2, asegúrate de visitar el sitio web de Pi, instalar el marco de trabajo y comenzar a experimentar. Es una herramienta poderosa que puede ayudarte a crear agentes de IA sofisticados que puedan abordar tareas complejas con facilidad.

Preguntas más frecuentes