Débloquez des capacités d'IA puissantes avec Qwen-Agent : Appel de fonction, interpréteur de code et RAG

Débloquez des capacités d'IA puissantes avec Qwen-Agent, un cadre multi-agent open source qui intègre le LLM Qwen 2 pour l'appel de fonctions, l'interprétation de code et la génération augmentée par la récupération. Découvrez comment il surpasse RAG et les modèles natifs à long contexte.

6 avril 2025

Déverrouillez la puissance de l'IA avec Qwen-Agent, un cadre multi-agent de pointe qui intègre en douceur le modèle de langage avancé Qwen 2. Découvrez comment les capacités de ce cadre, notamment l'appel de fonction, l'interprétation de code et la génération augmentée par la récupération, peuvent propulser vos projets pilotés par l'IA à de nouveaux sommets.

Puissant cadre multi-agent : appel de fonction, interpréteur de code et RAG
Génération de données pour l'entraînement de nouveaux modèles Quin à long contexte
Construire l'agent : trois niveaux de complexité
Génération augmentée par la recherche (RAG)
Lecture par morceaux
Raisonnement étape par étape avec des agents d'appel d'outils
Expériences et améliorations des performances
Démarrer avec l'agent Quin

Puissant cadre multi-agent : appel de fonction, interpréteur de code et RAG

L'agent Quen est un nouveau et avancé cadre d'agent IA construit sur le modèle de langage à grande échelle Quen 2. Il intègre plusieurs capacités puissantes, notamment l'appel de fonction, l'interpréteur de code, la génération augmentée par la recherche (RAG) et une extension Chrome.

Ce cadre vise à créer des agents IA sophistiqués capables de surpasser d'autres systèmes multi-agents. L'une des principales caractéristiques de l'agent Quen est sa capacité à gérer des tâches complexes avec une grande taille de contexte. Le cadre a pu comprendre des documents allant jusqu'à 1 million de jetons, dépassant les performances de RAG et des modèles natifs à long contexte.

L'agent Quen utilise une approche en quatre étapes pour généraliser le modèle de langage à grande échelle d'un contexte de 8K à un contexte d'un million de jetons :

Modèle initial : Le cadre commence avec un modèle de chat de contexte de 8K faible.
Développement de l'agent : Le modèle est utilisé pour construire un agent relativement fort capable de gérer le contexte d'un million de jetons.
Synthèse de données : L'agent est utilisé pour synthétiser des données de fine-tuning de haute qualité, avec un filtrage automatisé pour assurer la qualité.
Fine-tuning du modèle : Les données synthétiques sont utilisées pour affiner un modèle pré-entraîné, donnant lieu à un chatbot de 1 million de jetons de contexte.

Les capacités de l'agent Quen sont organisées en trois niveaux de complexité :

Génération augmentée par la recherche (RAG) : Il s'agit d'une approche simple qui traite des contextes de 1 million de jetons, les divise en blocs plus courts et ne conserve que les plus pertinents dans le contexte de 8K.
Lecture bloc par bloc : Cette stratégie de force brute vérifie la pertinence de chaque bloc de 512 jetons par rapport à la requête, récupère les blocs les plus pertinents et génère la réponse finale.
Raisonnement étape par étape : Cette approche utilise des agents de raisonnement multi-sauts et d'appel d'outils pour répondre à des questions complexes nécessitant une compréhension sur plusieurs étapes.

Génération de données pour l'entraînement de nouveaux modèles Quin à long contexte

L'agent Quin a été utilisé pour générer des données pour l'entraînement de nouveaux modèles Quin à long contexte. Il s'agit d'une réalisation importante, car la préparation de données de fine-tuning suffisamment longues a été un défi dans la recherche sur les modèles de langage à grande échelle pouvant traiter nativement des séquences de millions de jetons.

L'approche utilisée par l'agent Quin implique un processus en quatre étapes :

Modèle initial : Le processus commence avec un modèle de chat de contexte de 8K faible comme modèle initial.
Développement de l'agent : Dans cette phase, l'agent Quin est utilisé pour construire un agent relativement fort capable de gérer 1 million de contexte.
Synthèse de données : L'agent est ensuite utilisé pour synthétiser les données de fine-tuning, avec un filtrage automatisé pour assurer la qualité.
Fine-tuning du modèle : Enfin, les données synthétiques sont utilisées pour affiner un modèle pré-entraîné, donnant lieu à un chatbot de 1 million de contexte.

Construire l'agent : trois niveaux de complexité

La construction de l'agent se compose de trois niveaux de complexité, chacun s'appuyant sur le précédent :

Génération augmentée par la recherche :
- Il s'agit d'une approche simple qui traite une longueur de contexte de 1 million.
- Elle utilise l'algorithme RAG (Génération augmentée par la recherche).
- Elle divise le contexte en blocs plus courts, chacun ne dépassant pas 512 jetons.
- Elle ne conserve que les blocs les plus pertinents dans le contexte de 8K.
- Elle comporte trois sous-étapes :
  - Séparer l'instruction et l'information : Distingue les parties d'instruction et non-instruction de la requête de l'utilisateur.
  - Extraire les mots-clés : Déduit les mots-clés multilingues à partir de la partie informative de la requête.
  - Récupérer les blocs pertinents : Utilise l'algorithme BM25 pour localiser les blocs les plus pertinents.
Lecture bloc par bloc :
- Cette approche s'attaque aux limites de l'approche RAG, qui peut manquer des blocs pertinents s'ils ne correspondent pas à un mot-clé de la requête.
- Elle comprend trois étapes :
  - Évaluer la pertinence : Un modèle vérifie la pertinence de chaque bloc de 512 jetons par rapport à la requête.
  - Récupérer les blocs : Les phrases pertinentes sont utilisées pour récupérer les blocs les plus pertinents dans la limite de contexte de 8K, en utilisant l'algorithme BM25.
  - Générer la réponse : La réponse finale est générée en fonction du contexte récupéré, de manière similaire à la méthode RAG.
Raisonnement étape par étape :
- Cette approche est utilisée pour la réponse aux questions basées sur des documents, où un raisonnement multi-sauts est nécessaire.
- Elle utilise des agents d'appel d'outils, qui disposent de plusieurs types d'outils, tels que "Poser une question à l'agent LV3", "Sous-questions", "Mettre à jour la mémoire", et plus encore.
- Cette approche permet au modèle d'augmenter le contexte à 1 million de jetons et d'améliorer la qualité de diverses fonctionnalités.

Génération augmentée par la recherche (RAG)

Le premier niveau de la construction de l'agent consiste en une approche de Génération augmentée par la recherche (RAG). Il s'agit d'une approche simple que l'on a déjà vue de nombreuses fois. Elle traite une longueur de contexte de 1 million et utilise l'algorithme RAG.

Le processus implique :

Division du contexte : Le contexte est divisé en blocs plus courts, chaque bloc ne dépassant pas 512 jetons.
Conservation des blocs pertinents : Seuls les blocs les plus pertinents dans le contexte de 8K sont conservés.
Transformation de l'instruction séparée : Une instruction d'information séparée est utilisée pour distinguer les parties d'instruction et non-instruction des requêtes des utilisateurs. Par exemple, transformer la requête "Vous devriez répondre en 2 000 mots et le plus en détail possible. Ma question est quand les vélos ont-ils été inventés ?" en une structure d'invite.
Extraction de mots-clés : Le modèle est capable de déduire des mots-clés multilingues à partir de la partie informative de la requête.
Récupération des blocs pertinents : L'algorithme BM25, une méthode traditionnelle de recherche basée sur les mots-clés, est utilisé pour localiser les blocs les plus pertinents.

Lecture par morceaux

Le deuxième niveau de la construction de l'agent est l'approche de "Lecture bloc par bloc". Les chercheurs ont constaté que l'approche initiale RAG (Génération augmentée par la recherche) était assez rapide, mais qu'elle pouvait manquer des blocs pertinents s'ils ne correspondaient pas à un mot-clé de la requête. Pour y remédier, ils ont introduit une stratégie plus brutale en trois étapes :

Évaluer la pertinence : Un modèle qui vérifie la pertinence de chaque bloc de 512 jetons par rapport à la requête.
Récupération des blocs : Les phrases pertinentes de la requête sont utilisées pour récupérer les blocs les plus pertinents dans la limite de contexte de 8K, en utilisant l'algorithme BM25.
Génération de la réponse : La réponse finale est générée en fonction du contexte récupéré, de manière similaire à la méthode RAG.

Cette approche de Lecture bloc par bloc est plus approfondie pour s'assurer que les informations pertinentes ne sont pas manquées, même si elles ne correspondent pas aux mots-clés exacts de la requête. En vérifiant chaque bloc individuellement puis en récupérant les plus pertinents, l'agent peut construire une compréhension plus complète du contexte pour générer une réponse de haute qualité.

Raisonnement étape par étape avec des agents d'appel d'outils

Dans le cadre de l'agent Quen, l'approche de raisonnement étape par étape est utilisée pour relever le défi de la réponse aux questions basées sur des documents, où le modèle doit effectuer un raisonnement multi-sauts pour arriver à la bonne réponse.

Les aspects clés de cette approche sont :

Agents à outils multiples : Le cadre utilise plusieurs agents à outils spécialisés, tels que "Poser une question à l'agent LV3", "Sous-questions", "Mettre à jour la mémoire" et autres. Ces agents peuvent être appelés pour effectuer des étapes de raisonnement spécifiques.
Raisonnement itératif : L'agent commence avec la question initiale et la décompose en sous-questions. Il appelle ensuite les agents à outils appropriés pour rassembler les informations nécessaires, mettre à jour sa mémoire interne et générer finalement la réponse.
Expansion du contexte : En tirant parti des agents à outils, l'agent est capable d'étendre le contexte au-delà de la limite initiale de 8K jetons, lui permettant de traiter des questions nécessitant des informations provenant d'un corpus documentaire plus large.

Expériences et améliorations des performances

Le cadre d'agent Quin a démontré des capacités impressionnantes dans la gestion de tâches complexes avec des entrées à long contexte. À travers une série d'expériences, les développeurs ont mis en évidence les améliorations de performance significatives réalisées par ce nouveau cadre d'agent.

L'une des avancées clés est la capacité à généraliser le modèle de langage à grande échelle d'une taille de contexte de 8K à un contexte d'un million de jetons. Cela a été accompli en utilisant l'approche à plusieurs niveaux de l'agent Quin, qui comprend la génération augmentée par la recherche, la lecture bloc par bloc et le raisonnement étape par étape.

Les expériences ont montré que l'agent Quin peut surpasser les algorithmes RAG (Génération augmentée par la recherche) traditionnels et les modèles natifs à long contexte dans diverses capacités. Cela inclut la qualité des réponses générées, la capacité à comprendre et à raisonner sur des documents longs, ainsi que les performances globales sur les tâches de réponse aux questions basées sur des documents.

De plus, l'agent Quin a été utilisé pour générer des données d'entraînement de haute qualité pour de nouveaux modèles Quin à long contexte, améliorant davantage les capacités du modèle de langage sous-jacent. Cette approche consistant à utiliser le cadre d'agent pour synthétiser des données de fine-tuning s'est avérée être une stratégie précieuse pour faire progresser l'état de l'art dans les modèles de langage à grande échelle.

Démarrer avec l'agent Quin

Salut les gars, bienvenue dans une autre vidéo YouTube sur le World of AI. Dans cette vidéo d'aujourd'hui, nous allons examiner l'agent Quin, un nouveau cadre construit sur le modèle de langage à grande échelle Quin 2. Ce cadre intègre des capacités avancées comme l'appel de fonction, l'interpréteur de code, la génération augmentée par la recherche et une extension Chrome.

Pour commencer avec l'agent Quin, vous devrez d'abord vous rendre sur le site Web de Pi, dont je laisserai un lien dans la description ci-dessous. De là, vous pourrez installer le cadre d'agent sur votre bureau. Une fois que vous l'aurez installé, vous pourrez alors commencer à préparer les services de modèle et à déployer vos propres agents en utilisant les tutoriels qu'ils fournissent.

L'une des principales caractéristiques de l'agent Quin est sa capacité à utiliser le nouveau modèle Quin 2, qui est l'objet de cette vidéo. Ce nouveau modèle est incroyablement puissant et est considéré comme le meilleur cadre d'agent IA open source disponible. Il peut gérer des tâches complexes assez bien, et ce qui est vraiment impressionnant, c'est qu'ils ont réussi à généraliser le modèle de langage à grande échelle d'un contexte de 8K à un million de jetons, dépassant les performances de RAG et des modèles natifs à long contexte.

Pour commencer avec le nouveau modèle Quin 2, vous pouvez suivre les tutoriels sur le site Web de Pi. Ils ont beaucoup de ressources fantastiques qui montreront ce que vous pouvez faire avec ce nouveau cadre. Je vous recommande vivement de le vérifier, car c'est un jeu-changer dans le monde du développement d'agents IA.

FAQ

Qu'est-ce que Qwen-Agent ?

Quelles sont les principales capacités de Qwen-Agent ?

Comment Qwen-Agent a-t-il acquis la capacité de traiter des contextes de 1 million de jetons ?

Quels sont les différents niveaux de complexité du cadre Qwen-Agent ?

Comment puis-je me lancer avec Qwen-Agent ?

Créez Votre Petite Amie IA

Construisez votre compagne idéale avec notre Constructeur de Petite Amie IA