Desbloqueie Poderosos Recursos de IA com Qwen-Agent: Chamada de Função, Interpretador de Código e RAG
Desbloqueie poderosos recursos de IA com o Qwen-Agent, uma estrutura multiagente de código aberto que integra o LLM Qwen 2 para chamada de funções, interpretação de código e geração aumentada por recuperação. Descubra como ele supera o RAG e os modelos nativos de contexto longo.
14 de fevereiro de 2025

Desbloqueie o poder da IA com o Qwen-Agent, uma estrutura multiagente de ponta que integra perfeitamente o avançado modelo de linguagem em larga escala Qwen 2. Descubra como as capacidades desta estrutura, incluindo chamada de função, interpretação de código e geração aumentada por recuperação, podem elevar seus projetos impulsionados por IA a novos patamares.
Poderoso Framework Multi-Agente: Chamada de Função, Interpretador de Código e RAG
Gerando Dados para Treinar Novos Modelos Quin de Longo Contexto
Construindo o Agente: Três Níveis de Complexidade
Geração Aumentada por Recuperação (RAG)
Leitura Chunk por Chunk
Raciocínio Passo a Passo com Agentes de Chamada de Ferramenta
Experimentos e Melhorias de Desempenho
Começando com o Agente Quin
Poderoso Framework Multi-Agente: Chamada de Função, Interpretador de Código e RAG
Poderoso Framework Multi-Agente: Chamada de Função, Interpretador de Código e RAG
O Quen Agent é uma nova e avançada estrutura de agente de IA construída sobre o grande modelo de linguagem Quen 2. Ele integra várias capacidades poderosas, incluindo chamada de função, intérprete de código, geração aumentada por recuperação (RAG) e uma extensão do Chrome.
Esta estrutura visa criar agentes de IA sofisticados que possam superar outros sistemas multiagente. Uma das principais características do Quen Agent é sua capacidade de lidar com tarefas complexas com um grande tamanho de contexto. A estrutura conseguiu entender documentos com até 1 milhão de tokens, superando o desempenho do RAG e dos modelos nativos de contexto longo.
O Quen Agent usa uma abordagem de quatro etapas para generalizar o grande modelo de linguagem de um tamanho de contexto de 8K para um contexto de um milhão de tokens:
- Modelo Inicial: A estrutura começa com um modelo de bate-papo de contexto fraco de 8K.
- Desenvolvimento do Agente: O modelo é usado para construir um agente relativamente forte capaz de lidar com o contexto de 1 milhão de tokens.
- Síntese de Dados: O agente é usado para sintetizar dados de ajuste fino de alta qualidade, com filtragem automatizada para garantir a qualidade.
- Ajuste Fino do Modelo: Os dados sintéticos são usados para ajustar um modelo pré-treinado, resultando em um chatbot forte de 1 milhão de tokens.
Gerando Dados para Treinar Novos Modelos Quin de Longo Contexto
Gerando Dados para Treinar Novos Modelos Quin de Longo Contexto
O agente Quin foi usado para gerar dados para o treinamento de novos modelos Quin de contexto longo. Isso é uma conquista significativa, pois preparar dados de ajuste fino suficientemente longos tem sido um desafio na pesquisa sobre grandes modelos de linguagem que podem processar nativamente sequências de milhões de tokens.
A abordagem usada pelo agente Quin envolve um processo de quatro etapas:
-
Modelo Inicial: O processo começa com um modelo de bate-papo de contexto fraco de 8K como modelo inicial.
-
Desenvolvimento do Agente: Nesta fase, o agente Quin é usado para construir um agente relativamente forte capaz de lidar com 1 milhão de contexto.
-
Síntese de Dados: O agente é então usado para sintetizar os dados de ajuste fino, com filtragem automatizada para garantir a qualidade.
-
Ajuste Fino do Modelo: Finalmente, os dados sintéticos são usados para ajustar um modelo pré-treinado, resultando em um chatbot de 1 milhão de contexto forte.
Construindo o Agente: Três Níveis de Complexidade
Construindo o Agente: Três Níveis de Complexidade
A construção do agente consiste em três níveis de complexidade, cada um construído sobre o anterior:
- Geração Aumentada por Recuperação:
- Esta é uma abordagem simples que processa um comprimento de contexto de 1 milhão.
- Ela usa o algoritmo RAG (Geração Aumentada por Recuperação).
- Ela divide o contexto em pedaços menores, cada um não excedendo 512 tokens.
- Ela retém apenas os pedaços mais relevantes dentro do contexto de 8K.
- Ela tem três sub-etapas:
- Separar instrução e informação: Distingue entre as partes de instrução e não instrução da consulta do usuário.
- Extrair palavras-chave: Deduz palavras-chave multilíngues da parte informativa da consulta.
- Recuperar pedaços relevantes: Usa o algoritmo BM25 para localizar os pedaços mais relevantes.
Geração Aumentada por Recuperação (RAG)
Geração Aumentada por Recuperação (RAG)
A primeira etapa da construção do agente consiste em uma abordagem de Geração Aumentada por Recuperação (RAG). Esta é uma abordagem simples que já foi vista muitas vezes antes. Ela processa um comprimento de contexto de 1 milhão e usa o algoritmo RAG.
O processo envolve:
- Divisão do Contexto: O contexto é dividido em pedaços menores, sendo que cada pedaço não excede 512 tokens.
- Retenção de Pedaços Relevantes: Apenas os pedaços mais relevantes dentro do contexto de 8K são retidos.
- Transformação de Instrução Separada: Uma instrução de informação separada é usada para distinguir entre as partes de instrução e não instrução das consultas do usuário.
- Extração de Palavras-Chave: O modelo é capaz de deduzir palavras-chave multilíngues da parte informativa da consulta.
- Recuperação de Pedaços Relevantes: O algoritmo BM25, um método tradicional de recuperação baseado em palavras-chave, é usado para localizar os pedaços mais relevantes.
Leitura Chunk por Chunk
Leitura Chunk por Chunk
A segunda etapa da construção do agente é a abordagem de "Leitura Pedaço por Pedaço". Os pesquisadores descobriram que a abordagem inicial de RAG (Geração Aumentada por Recuperação) era bastante rápida, mas poderia perder pedaços relevantes se eles não correspondessem a uma palavra-chave na consulta. Para resolver isso, eles introduziram uma estratégia mais bruta com três etapas:
- Acesso à Relevância: Um modelo que verifica cada pedaço de 512 tokens para sua relevância para a consulta.
- Recuperação de Pedaços: As sentenças relevantes da consulta são usadas para recuperar os pedaços mais relevantes dentro do limite de contexto de 8K, usando o algoritmo BM25.
- Geração de Resposta: A resposta final é gerada com base no contexto recuperado, semelhante ao método RAG.
Raciocínio Passo a Passo com Agentes de Chamada de Ferramenta
Raciocínio Passo a Passo com Agentes de Chamada de Ferramenta
Na estrutura do Quen Agent, a abordagem de raciocínio passo a passo é usada para abordar o desafio da resposta a perguntas baseadas em documentos, onde o modelo precisa realizar um raciocínio de múltiplas etapas para chegar à resposta correta.
Os principais aspectos dessa abordagem são:
-
Múltiplos Agentes de Ferramentas: A estrutura utiliza vários agentes de ferramentas especializados, como "Pergunte ao Agente LV3", "Sub-Perguntas", "Atualizar Memória" e outros. Esses agentes podem ser chamados para executar etapas específicas de raciocínio.
-
Raciocínio Iterativo: O agente começa com a pergunta inicial e a divide em sub-perguntas. Ele então chama os agentes de ferramenta apropriados para coletar as informações necessárias, atualizar sua memória interna e, finalmente, gerar a resposta.
-
Expansão de Contexto: Ao aproveitar os agentes de ferramenta, o agente é capaz de expandir o contexto além do limite inicial de 8K tokens, permitindo que ele lide com perguntas que exigem informações de um corpus de documentos maior.
Experimentos e Melhorias de Desempenho
Experimentos e Melhorias de Desempenho
A estrutura do agente Quin demonstrou capacidades impressionantes no manuseio de tarefas complexas com entradas de contexto longo. Através de uma série de experimentos, os desenvolvedores demonstraram as melhorias significativas de desempenho alcançadas por essa nova estrutura de agente.
Um dos principais avanços é a capacidade de generalizar o grande modelo de linguagem de um tamanho de contexto de 8K para um contexto de um milhão de tokens. Isso foi alcançado utilizando a abordagem de múltiplos níveis do agente Quin, que inclui geração aumentada por recuperação, leitura pedaço por pedaço e raciocínio passo a passo.
Os experimentos mostraram que o agente Quin pode superar os algoritmos tradicionais de RAG (Geração Aumentada por Recuperação) e os modelos nativos de contexto longo em várias capacidades. Isso inclui a qualidade das respostas geradas, a capacidade de entender e raciocinar sobre documentos de longa duração e o desempenho geral em tarefas de resposta a perguntas baseadas em documentos.
Começando com o Agente Quin
Começando com o Agente Quin
Olá pessoal, bem-vindos de volta a outro vídeo do YouTube no World of AI. Neste vídeo de hoje, vamos dar uma olhada no Quin Agent, uma nova estrutura construída sobre o grande modelo de linguagem Quin 2. Esta estrutura integra capacidades avançadas como chamada de função, intérprete de código, geração aumentada por recuperação e uma extensão do Chrome.
Para começar com o Quin Agent, você primeiro precisará ir ao site da Pi, que deixarei um link na descrição abaixo. De lá, você pode instalar a estrutura do agente em seu desktop. Depois de tê-lo instalado, você pode então começar a preparar os serviços do modelo e implantar seus próprios agentes usando os tutoriais que eles fornecem.
Uma das principais características do Quin Agent é sua capacidade de utilizar o novo modelo Quin 2, que é o objetivo deste vídeo. Este novo modelo é incrivelmente poderoso e é considerado o melhor framework de agente de IA de código aberto disponível. Ele pode lidar muito bem com tarefas complexas, e o que é realmente impressionante é que eles conseguiram generalizar o grande modelo de linguagem de um contexto de 8K para um milhão de tokens, superando o desempenho do RAG e dos modelos nativos de contexto longo.
Perguntas frequentes
Perguntas frequentes