SWE-Agent : Le défi open source de l'ingénieur logiciel en IA à DEVIN

Découvrez SWE-Agent, le challenger open-source d'ingénieur logiciel IA au DEVIN. Apprenez comment il égale les performances de DEVIN sur le SWE Benchmark en seulement 93 secondes, et explorez son interface agent-ordinateur innovante. Explorez l'avenir de l'ingénierie logicielle alimentée par l'IA.

15 février 2025

party-gif

Débloquez la puissance de l'ingénierie logicielle open source avec SWE-Agent, un outil de pointe qui rivalise avec les performances du très attendu DEVIN. Cet article de blog explore comment SWE-Agent peut résoudre de manière autonome les problèmes GitHub avec une efficacité remarquable, offrant une alternative convaincante aux solutions propriétaires.

Comment SWE-Agent se compare à DEVIN sur le benchmark SWE

L'agent SWE, un nouveau projet open source, a atteint des performances très proches de celles de DEVIN, le logiciel d'ingénierie IA développé par Cognition Lab, sur le benchmark SWE. Le benchmark SWE est basé sur la résolution de problèmes GitHub, et DEVIN avait précédemment atteint une précision de pointe de 13,86% sur ce benchmark.

Cependant, l'agent SWE est capable d'égaler cette performance, et peut même la dépasser. Fait notable, l'agent SWE accomplit cette tâche en seulement environ 93 secondes, ce qui est nettement plus rapide que les 5 minutes prises par DEVIN.

Il est à noter que l'équipe de Cognition Lab n'avait testé DEVIN que sur 25% de l'ensemble de données du benchmark SWE, tandis que les performances de l'agent SWE sont rapportées sur l'ensemble complet des données. Cela suggère que si DEVIN était testé sur l'ensemble complet des données, ses performances pourraient se dégrader et potentiellement se rapprocher du niveau atteint par l'agent SWE.

L'agent SWE utilise une approche similaire à base d'agents à DEVIN, la différence clé étant l'introduction d'une couche d'"interface agent-ordinateur". Cette couche fournit à l'agent un ensemble de commandes adaptées aux modèles de langage et un environnement terminal spécialisé, lui permettant d'interagir plus efficacement avec les dépôts GitHub.

Comment fonctionne SWE-Agent : son architecture et ses capacités

L'agent SWE est un nouveau projet open source qui vise à répliquer les fonctionnalités du système propriétaire Deon développé par Cognition Lab. L'agent a une architecture unique qui lui permet d'effectuer des tâches d'ingénierie logicielle, en particulier sur les dépôts GitHub, avec une efficacité impressionnante.

Les aspects clés de la conception et des capacités de l'agent SWE sont :

  1. Interface agent-ordinateur : L'agent SWE interagit avec l'ordinateur via une couche d'"interface agent-ordinateur" spécialisée. Cette interface fournit un ensemble de commandes et de formats de rétroaction adaptés aux modèles de langage, facilitant la navigation dans les dépôts, l'affichage, la modification et l'exécution des fichiers.

  2. Analyse de fichiers par incréments : Au lieu d'analyser le fichier dans son intégralité, l'agent SWE le décompose en tranches de 100 lignes et recherche les sections de code pertinentes. Cette approche permet à l'agent de mieux maintenir le contexte et d'être plus efficace qu'une analyse de fichier complet.

  3. Capacités axées sur GitHub : Actuellement, l'agent SWE est spécifiquement conçu pour fonctionner avec les dépôts GitHub, lui permettant de résoudre des problèmes et de créer des demandes de tirage. Cependant, les développeurs ont indiqué que le champ d'application pourrait s'étendre à d'autres tâches d'ingénierie logicielle à l'avenir.

  4. Comparaison des performances : L'agent SWE a démontré des performances très proches du système propriétaire Deon sur le benchmark SWE, basé sur la résolution de problèmes GitHub. Fait notable, l'agent SWE peut terminer les tâches du benchmark en environ 93 secondes, soit beaucoup plus rapidement que les 5 minutes de Deon.

  5. Open source et accessibilité : Le projet agent SWE est complètement open source, et les développeurs prévoient de publier prochainement un article détaillant l'architecture et les capacités du système. Cette transparence et cette accessibilité permettent à la communauté open source d'améliorer et d'étendre davantage les fonctionnalités de l'agent.

Les performances impressionnantes de SWE-Agent en 93 secondes

L'agent SWE, un nouveau projet open source, a démontré des performances impressionnantes sur le benchmark SWE, basé sur la résolution de problèmes GitHub. L'agent SWE est capable d'atteindre des performances très proches de celles du système propriétaire Devon, précédemment considéré comme l'état de l'art.

Fait notable, l'agent SWE peut terminer le benchmark en seulement 93 secondes, ce qui est nettement plus rapide que les 5 minutes requises par Devon. Cela suggère que l'agent SWE a une approche très efficace et optimisée pour résoudre les tâches d'ingénierie logicielle.

De plus, les performances de l'agent SWE sont obtenues sur l'ensemble complet du benchmark SWE, contrairement à Devon, qui n'a été testé que sur 25% de l'ensemble de données. Cela indique que les capacités de l'agent SWE sont plus robustes et généralisables.

Le succès de l'agent SWE est attribué à son architecture unique, qui comprend une "interface agent-ordinateur" fournissant une couche d'abstraction entre le modèle de langage et le terminal de l'ordinateur. Cela permet à l'agent d'interagir avec la base de code de manière plus naturelle et efficace.

Limites de SWE-Agent et le besoin de LLM puissants

Bien que l'agent SWE ait montré des performances impressionnantes sur le benchmark SWE, il est actuellement limité à l'utilisation des dépôts GitHub. Les capacités de l'agent sont limitées à des tâches d'ingénierie logicielle spécifiques et il ne peut pas être utilisé pour d'autres types de tâches. De plus, l'agent nécessite l'utilisation de modèles de langage puissants comme Opus ou GPT-4 pour fonctionner efficacement. Les modèles de langage open source actuellement disponibles ne sont pas assez performants pour exécuter des agents comme l'agent SWE.

Cependant, les progrès réalisés par l'agent SWE et les projets similaires sont encourageants. À mesure que la communauté open source continuera à développer des modèles de langage plus avancés, les capacités de ces agents d'ingénierie logicielle devraient s'étendre. La publication du document sur l'agent SWE est très attendue, car elle pourrait fournir des informations précieuses sur le développement et le potentiel de ces types de systèmes.

Conclusion

L'émergence de projets open source comme l'agent SWA, qui peut s'approcher des performances du système propriétaire Devon, est un développement important dans le domaine de l'ingénierie logicielle alimentée par l'IA. La capacité de l'agent SWA à résoudre de manière autonome les problèmes GitHub en quelques secondes, contre 5 minutes pour Devon, est une réalisation impressionnante.

Bien que l'agent SWA soit actuellement limité aux problèmes GitHub, la communauté open source devrait continuer à développer ses capacités. La publication du document du projet fournira des informations précieuses sur les techniques et les approches sous-jacentes utilisées.

Un élément clé à retenir est que l'avantage principal des systèmes propriétaires comme Devon réside dans leur accès à des données et des ressources de calcul propriétaires, plutôt que dans une supériorité technologique intrinsèque. La capacité de la communauté open source à répliquer de telles performances met en évidence le potentiel de futurs progrès dans ce domaine.

Cependant, les limites actuelles des modèles de langage open source pour exécuter ces agents avancés restent un défi. Le besoin de modèles plus puissants, comme Opus ou GPT-4, est évident. À mesure que le domaine progressera, il sera passionnant de voir comment la communauté open source continuera à repousser les limites de l'ingénierie logicielle alimentée par l'IA.

FAQ