Révolutionner les agents IA : Débloquer le contrôle informatique avec le monde OS

Révolutionnez les agents IA avec OS World, un nouveau projet open source qui fournit un environnement robuste pour évaluer et tester les agents IA dans de véritables environnements informatiques. Découvrez comment cette percée permet aux agents d'exécuter des tâches complexes en ancrant les instructions dans des actions concrètes.

14 février 2025

party-gif

Déverrouillez l'avenir des agents IA avec OS World, un projet révolutionnaire qui permet un contrôle transparent des ordinateurs sur tous les systèmes d'exploitation. Découvrez comment cette plateforme open source révolutionne la façon dont nous évaluons et améliorons les agents IA, leur permettant de relever des tâches complexes du monde réel avec précision et efficacité.

Comment OS World permet aux agents IA de contrôler des ordinateurs sur différents systèmes d'exploitation

OS World est un nouveau projet qui vise à relever le défi du benchmarking et des tests d'agents IA dans de véritables environnements informatiques. Les principales caractéristiques d'OS World comprennent :

  1. Environnement multimodal unifié : OS World fournit un environnement unifié pour que les agents IA opèrent dans différents systèmes d'exploitation, applications et interfaces, y compris les interfaces graphiques (GUI) et les interfaces en ligne de commande (CLI).

  2. Espaces d'observation et d'action : OS World définit l'espace d'observation, qui comprend l'environnement de bureau actuel, les instructions, les captures d'écran et les arbres d'accessibilité. Il définit également l'espace d'action, qui comprend des actions telles que les mouvements de la souris, les clics, la saisie au clavier et plus encore.

  3. Métriques d'évaluation : OS World comprend des tâches informatiques réelles soigneusement annotées, avec des configurations d'état initial et des scripts d'évaluation personnalisés pour évaluer les performances des agents IA.

  4. Accessibilité et ancrage : OS World fournit des informations d'accessibilité et un ancrage pour permettre aux agents IA d'interpréter et d'exécuter des instructions, surmontant les limites des approches comme l'interprète ouvert qui s'appuient sur des interactions imprécises basées sur des captures d'écran.

  5. Open-source et reproductible : Le projet OS World, y compris l'article de recherche, le code et les données, est open-source, permettant la reproductibilité et le développement ultérieur par la communauté de recherche.

Définition des agents intelligents et de leurs composants clés

Un agent intelligent est défini comme un système qui perçoit son environnement à travers des capteurs et agit sur cet environnement à travers des effecteurs, de manière rationnelle pour atteindre ses objectifs. Les principaux composants d'un agent intelligent sont :

  1. Capteurs : Les moyens de l'agent pour percevoir son environnement, comme les caméras, les microphones ou d'autres périphériques d'entrée.

  2. Effecteurs : Les moyens de l'agent pour agir sur son environnement, comme les moteurs, les haut-parleurs ou d'autres périphériques de sortie.

  3. Autonomie : La capacité de l'agent à fonctionner sans contrôle humain direct.

  4. Réactivité : La capacité de l'agent à percevoir et à réagir aux changements de son environnement en temps opportun.

  5. Proactivité : La capacité de l'agent à adopter un comportement orienté vers un objectif en prenant l'initiative pour atteindre ses objectifs.

  6. Capacité sociale : La capacité de l'agent à interagir avec d'autres agents ou humains dans son environnement.

Ces composants permettent à l'agent de percevoir son environnement, de planifier et d'exécuter des actions, et d'apprendre de ses expériences pour améliorer ses performances au fil du temps. L'objectif d'un agent intelligent est de maximiser ses performances dans la réalisation de ses objectifs, tout en opérant dans les contraintes de son environnement.

Les défis du contrôle des ordinateurs pour les agents IA

Contrôler les ordinateurs et exécuter des tâches dans des environnements numériques a été un défi important pour les agents IA. La présentation met en évidence les principales difficultés :

  1. Ancrage des instructions dans les actions : Fournir simplement des instructions étape par étape ne suffit pas pour qu'un agent IA exécute une tâche avec succès. L'agent doit être capable d'ancrer ces instructions dans des actions réelles qui peuvent contrôler l'interface de l'ordinateur, que ce soit une souris, un clavier ou d'autres méthodes d'entrée.

  2. Systèmes fermés et propriétaires : Les systèmes d'exploitation comme macOS et Windows sont fermés et propriétaires, ce qui rend difficile pour les agents IA de contrôler précisément l'environnement informatique. Les approches existantes, comme l'utilisation des fonctionnalités d'accessibilité et des grilles de captures d'écran, sont imprécises et inefficaces.

  3. Manque de rétroaction et d'itération : Sans la capacité de percevoir l'environnement et de recevoir des commentaires, les agents IA ont du mal à générer des plans précis et multi-étapes pour exécuter des tâches. Le manque d'interaction avec le véritable environnement limite leur capacité à apprendre et à s'améliorer.

  4. Complexité des tâches du monde réel : De nombreuses tâches informatiques du monde réel impliquent plusieurs applications, interfaces et flux de travail. Traduire des instructions de haut niveau en actions nécessaires pour accomplir ces tâches complexes est un défi important pour les agents IA actuels.

OS World : un environnement informatique réel et évolutif pour l'évaluation des agents IA

OS World est un nouveau projet qui vise à fournir un environnement réel et évolutif pour l'évaluation des agents IA. Il comprend plusieurs systèmes d'exploitation, des applications et des interfaces, ainsi qu'une observation détaillée et un retour d'information, permettant aux agents IA d'ancrer leurs instructions dans des actions précises et d'itérer sur leurs performances.

Les principales caractéristiques d'OS World comprennent :

  1. Environnement multimodal pour agents : OS World sert d'environnement unifié pour évaluer les tâches informatiques ouvertes impliquant des applications et des interfaces arbitraires dans différents systèmes d'exploitation.

  2. Modes d'observation : Les agents peuvent recevoir des observations par le biais de différents modes, notamment l'arbre d'accessibilité, les captures d'écran et un ensemble de marques (une représentation en grille de l'écran).

  3. Espace d'action : Les agents peuvent effectuer une gamme d'actions, telles que des mouvements de souris, des clics, la saisie au clavier et l'utilisation de raccourcis clavier, pour interagir avec l'environnement.

  4. Évaluation des tâches : OS World comprend des tâches informatiques réelles soigneusement annotées, avec des configurations d'état initial et des scripts d'évaluation personnalisés basés sur l'exécution pour évaluer les performances de l'agent.

  5. Benchmarking : Le projet a été utilisé pour évaluer diverses agents, notamment Cog Agent, GPT-4 et Gemini Pro Cloud 3, démontrant l'efficacité des modes d'observation basés sur l'arbre d'accessibilité et les captures d'écran.

  6. Open-source : Le projet OS World, y compris le code et les données, est open-source, permettant aux chercheurs et aux développeurs d'y accéder et de s'appuyer sur cette plateforme.

Évaluation des performances des agents dans OS World

Le projet OS World vise à fournir un environnement robuste et évolutif pour évaluer les performances des agents IA dans l'exécution de tâches informatiques du monde réel. Les principaux aspects de ce processus d'évaluation sont :

  1. Formalisation des tâches : Une tâche d'agent est formalisée comme un processus décisionnel de Markov partiellement observable (POMDP), avec un espace d'états, un espace d'observations, un espace d'actions, une fonction de transition et une fonction de récompense définis.

  2. Modalités d'observation : Les agents peuvent recevoir des observations par le biais de différentes modalités, notamment l'arbre d'accessibilité, les captures d'écran et un ensemble de coordonnées de boîtes englobantes (marques). Celles-ci fournissent différents niveaux d'informations sur l'état actuel de l'environnement.

  3. Espace d'action : Les agents peuvent effectuer une gamme d'actions pour interagir avec l'environnement informatique, telles que les mouvements de souris, les clics, la saisie au clavier, le défilement et l'utilisation de raccourcis clavier.

  4. Évaluation de l'exécution des tâches : Chaque tâche est soigneusement annotée avec des instructions du monde réel, une configuration d'état initial et un script d'évaluation personnalisé qui vérifie si la tâche a été accomplie avec succès.

  5. Tâches de référence : Le projet OS World comprend 369 tâches informatiques du monde réel impliquant des applications web et de bureau, des opérations de fichiers et des flux de travail multi-applications, fournissant un ensemble complet de références pour évaluer les performances des agents.

Conclusion

Le projet OS World est une avancée significative dans le domaine du benchmarking des agents IA. En fournissant un environnement open-source robuste pour que les agents interagissent avec de véritables systèmes et applications informatiques, il comble un écart critique dans l'état actuel de l'évaluation de l'IA.

Les points clés du projet OS World sont :

  1. Interaction multimodale : L'environnement prend en charge diverses modalités d'entrée, notamment les captures d'écran, les arbres d'accessibilité et l'ensemble de marques, permettant aux agents de percevoir et d'interagir avec l'environnement informatique de manière plus naturelle et complète.

  2. Tâches du monde réel : Le projet comprend un ensemble diversifié de 369 tâches informatiques du monde réel, soigneusement sélectionnées à partir d'instructions utilisateur, impliquant des flux de travail multi-étapes dans diverses applications et systèmes d'exploitation.

  3. Évaluation rigoureuse : Les tâches sont accompagnées de configurations d'état initial détaillées et de scripts d'évaluation personnalisés, permettant une évaluation standardisée et objective des performances des agents.

  4. Disponibilité open-source : L'ensemble du projet, y compris le code, les données et l'article de recherche, est ouvertement disponible, favorisant la collaboration et les progrès futurs dans ce domaine.

FAQ