Débloquer le développement de logiciels de nouvelle génération alimenté par l'IA : les mises à niveau de pointe d'OpenDevin

Découvrez les outils de développement logiciel alimentés par l'IA de pointe d'OpenDevin, notamment l'agent CodeAct 1.0 avec un taux de résolution de 21% sur le benchmark Sway. Apprenez à utiliser le harnais d'évaluation simplifié pour tester les agents de codage. Optimisez votre développement logiciel grâce à ces avancées de nouvelle génération.

24 février 2025

party-gif

Débloquez la puissance de l'ingénierie logicielle d'IA open-source avec les dernières avancées d'OpenDevin. Découvrez comment son agent de codage de pointe, CodeAct 1.0, et son harnais d'évaluation simplifié peuvent rationaliser votre processus de développement logiciel et vous aider à construire et déployer des applications plus efficacement.

Principales mises à jour d'OpenDevin : Présentation de CodeAct 1.0 et du nouveau harnais d'évaluation simplifié

OpenDevin, l'alternative open-source à DeepMind's DeepCode, a récemment annoncé deux mises à niveau majeures de son cadre de travail. La première est l'introduction de CodeAct 1.0, un nouvel agent de codage de pointe qui atteint un taux de résolution remarquable de 21% sur la version légère non assistée de SowaiBench, une amélioration de 177% par rapport à ses performances précédentes. Cet agent s'appuie sur le cadre CodeAct, consolidant les actions des agents de modèle de langage de grande taille dans une interface de code unifiée.

La deuxième annonce est l'introduction d'un nouveau harnais d'évaluation simplifié pour tester les agents de codage. Ce harnais vise à faciliter une évaluation complète et améliorée des agents, permettant une meilleure comparaison et favorisant l'amélioration continue de ces outils d'IA au fil du temps.

L'agent CodeAct 1.0 introduit plusieurs capacités clés, notamment la possibilité de converser avec les humains, de classifier le code, de confirmer et d'exécuter le code (commandes bash Linux et Python), et d'effectuer diverses actions liées aux fichiers telles que l'ouverture, la navigation, la recherche et l'édition. Ces capacités s'appuient sur les leçons tirées du cadre d'agent SowaiBench précédent, étendant davantage la boîte à outils et améliorant les performances globales.

De plus, le nouveau harnais d'évaluation intègre un mécanisme de compte à rebours, inspiré du projet Mint, qui encourage le modèle à terminer les tâches dans un nombre fixe d'interactions. Cela, ainsi que le processus d'écriture et d'analyse des commandes bash simplifiées, améliore l'ergonomie et l'accessibilité du cadre de travail.

Explorer les capacités de CodeAct 1.0 : Un agent de codage à la pointe de la technologie

Le nouvel agent CodeAct 1.0 d'OpenDev est une mise à niveau importante qui montre des capacités impressionnantes. Cet agent de codage de pointe a atteint un taux de résolution remarquable de 21% sur le benchmark Sway Bench Light non assisté, une amélioration de 177% par rapport à ses performances précédentes.

CodeAct 1.0 s'appuie sur le cadre CodeAct, consolidant les actions des agents de modèle de langage de grande taille dans une interface de code unifiée. Cela permet à l'agent d'effectuer une large gamme de tâches liées au codage, comme converser avec les humains, classifier le code, confirmer et exécuter le code (y compris les commandes bash Linux et Python), et plus encore.

L'agent a été amélioré avec des ensembles d'outils supplémentaires basés sur les commandes bash, lui permettant de naviguer dans les fichiers, de créer et de modifier des fichiers, de rechercher dans les répertoires et d'effectuer d'autres opérations avancées. Ces capacités sont le résultat de l'incorporation des commentaires et des leçons tirées de l'agent Sway précédent.

CodeAct 1.0 introduit également un mécanisme de compte à rebours unique, emprunté au projet Mint, qui encourage le modèle à terminer les tâches dans un nombre fixe d'interactions. De plus, l'agent dispose d'un processus d'écriture de commandes bash et d'analyse des actions, rendant l'interface plus accessible et conviviale.

Le harnais d'évaluation simplifié : Faciliter l'évaluation et la comparaison complètes des agents

La deuxième annonce majeure des créateurs d'OpenDevon est l'introduction d'un nouveau harnais d'évaluation simplifié. Ce harnais est conçu pour faciliter un processus d'évaluation complet et rationalisé pour les agents de codage.

L'objectif principal de ce harnais d'évaluation est d'améliorer l'évaluation et la comparaison des différents modèles d'agents au fil du temps. En fournissant un cadre standardisé et convivial, il permettra aux développeurs de tester et de comparer de manière approfondie les capacités de leurs agents de codage.

Le harnais d'évaluation simplifié se concentre sur les aspects clés suivants :

  1. Évaluation complète : Le harnais permettra une évaluation approfondie des performances d'un agent sur une large gamme de tâches et de scénarios de codage. Cela fournira une compréhension plus holistique des forces et des faiblesses d'un agent.

  2. Comparaison améliorée : Le processus d'évaluation standardisé permettra une comparaison plus précise et significative entre les différents modèles d'agents. Cela aidera les développeurs à identifier les agents les plus adaptés à leurs besoins spécifiques.

  3. Amélioration itérative : En établissant un cadre d'évaluation cohérent, le harnais permettra aux développeurs de suivre les progrès et l'évolution de leurs agents au fil du temps. Cela facilitera l'amélioration continue des capacités des agents.

  4. Accessibilité : La nature simplifiée du harnais d'évaluation vise à rendre le processus d'évaluation plus convivial et accessible à un plus large éventail de développeurs, favorisant une participation et une collaboration plus larges.

Tirer parti de Kodak : Harmoniser les actions des modèles de langage de grande taille pour un développement logiciel fluide

Le nouvel agent Kodak 1.0 d'Open Devon représente une avancée significative dans le domaine de l'IA de codage. Cet agent de pointe atteint un taux de résolution remarquable de 21% sur le benchmark Sway Bench Light non assisté, une amélioration de 177% par rapport à ses performances précédentes.

Kodak 1.0 s'appuie sur le cadre Codex, consolidant les actions des agents de modèle de langage de grande taille dans une interface de code unifiée. Cela permet à l'agent d'effectuer une large gamme de tâches liées au codage, notamment de converser avec les humains, de classifier le code, de confirmer et d'exécuter le code (commandes bash Linux et Python) et de naviguer dans les fichiers et les répertoires.

L'introduction d'un mécanisme de compte à rebours, inspiré du projet Mint, encourage le modèle à terminer ses tâches dans un nombre fixe d'interactions, favorisant l'efficacité et la convivialité. De plus, le processus d'écriture de commandes bash et d'analyse des actions a été simplifié, améliorant davantage l'accessibilité du cadre de travail.

La capacité de Kodak à harmoniser les actions des modèles de langage de grande taille avec un code exécutable le distingue des agents traditionnels limités aux sorties JSON ou textuelles. En tirant parti de vastes progiciels logiciels et en s'appuyant sur un pré-entraînement sur des données de code, Kodak peut relever des opérations complexes et contrôler les flux de contrôle et de données, permettant le développement de logiciels sophistiqués et la résolution de tâches du monde réel sur des plateformes comme GitHub.

Pourquoi utiliser Kodak ? Améliorer la flexibilité et étendre les fonctionnalités

La plupart des agents de modèle de langage de grande taille existants sont entravés par la génération d'actions uniquement au format JSON ou texte. C'est là que Kodak est en mesure d'offrir plus de flexibilité, vous permettant de combiner plusieurs outils pour exécuter différentes tâches.

Kodak se démarque en utilisant le pré-entraînement existant des modèles de langage de grande taille sur les données de code. Cela lui permet de prendre en charge de manière inhérente des opérations complexes à travers les flux de contrôle et de données, ainsi que de tirer parti de vastes progiciels logiciels pour étendre ses fonctionnalités.

Les performances prometteuses de Kodak peuvent vous aider à développer différents types de logiciels et à résoudre des tâches du monde réel, comme celles que l'on trouve sur GitHub. En générant du code complexe, Kodak vise à libérer les utilisateurs des tâches fastidieuses et à les doter d'un cadre d'assistance au codage robuste.

L'introduction d'une nouvelle métrique d'évaluation simplifiée aidera l'équipe Kodak à améliorer et à évaluer en permanence les performances de l'agent. Cela leur permettra d'introduire des tactiques et des algorithmes plus avancés pour améliorer les capacités de Kodak à résoudre des défis complexes.

FAQ