SWE-Agent: O Desafiante de Engenheiro de Software de IA de Código Aberto ao DEVIN

Descubra o SWE-Agent, o desafiante de engenheiro de software de IA de código aberto para DEVIN. Aprenda como ele corresponde ao desempenho do DEVIN no SWE Benchmark em apenas 93 segundos e explore sua inovadora interface de agente-computador. Explore o futuro da engenharia de software alimentada por IA.

15 de fevereiro de 2025

party-gif

Desbloqueie o poder da engenharia de software de código aberto com o SWE-Agent, uma ferramenta de ponta que rivaliza com o desempenho do altamente esperado DEVIN. Este post de blog explora como o SWE-Agent pode resolver problemas do GitHub de forma autônoma com notável eficiência, oferecendo uma alternativa convincente às soluções proprietárias.

Como o SWE-Agent se compara ao DEVIN no Benchmark SWE

O SWE-Agent, um novo projeto de código aberto, alcançou um desempenho muito próximo ao do DEVIN, o engenheiro de software de IA desenvolvido pelo Cognition Lab, no Benchmark SWE. O Benchmark SWE é baseado na resolução de problemas do GitHub, e anteriormente foi relatado que o DEVIN alcançou uma precisão de ponta de 13,86% nesse benchmark.

No entanto, o SWE-Agent é capaz de igualar esse desempenho e até mesmo superá-lo. Notavelmente, o SWE-Agent realiza essa tarefa em apenas cerca de 93 segundos, o que é significativamente mais rápido do que os 5 minutos necessários pelo DEVIN.

É importante observar que a equipe do Cognition Lab havia testado o DEVIN em apenas 25% do conjunto de dados do Benchmark SWE, enquanto o desempenho do SWE-Agent é relatado no conjunto de dados completo. Isso sugere que, se o DEVIN fosse testado no conjunto de dados completo, seu desempenho pode se degradar e potencialmente se aproximar do nível alcançado pelo SWE-Agent.

Como o SWE-Agent funciona: sua arquitetura e capacidades

O SWE-Agent é um novo projeto de código aberto que visa replicar a funcionalidade do sistema proprietário Deon, desenvolvido pelo Cognition Lab. O agente possui uma arquitetura única que lhe permite realizar tarefas de engenharia de software, particularmente em repositórios do GitHub, com impressionante eficiência.

Os principais aspectos do design e das capacidades do SWE-Agent são:

  1. Interface Agente-Computador: O SWE-Agent interage com o computador através de uma camada de "interface agente-computador" especializada. Essa interface fornece um conjunto de comandos e formatos de feedback amigáveis aos modelos de linguagem, facilitando a navegação pelos repositórios, visualização, edição e execução de arquivos.

  2. Análise de Arquivos Incremental: Em vez de analisar o arquivo inteiro de uma só vez, o SWE-Agent divide o arquivo em trechos de 100 linhas e procura pelas seções de código relevantes. Essa abordagem permite que o agente mantenha um melhor contexto e execute de forma mais eficiente em comparação a uma análise de arquivo completo.

  3. Capacidades Focadas no GitHub: Atualmente, o SWE-Agent é projetado especificamente para trabalhar com repositórios do GitHub, permitindo que ele resolva problemas e crie pull requests. No entanto, os desenvolvedores indicaram que o escopo pode ser ampliado para incluir outras tarefas de engenharia de software no futuro.

  4. Comparação de Desempenho: O SWE-Agent demonstrou um desempenho muito próximo ao do sistema proprietário Deon no Benchmark SWE, que é baseado na resolução de problemas do GitHub. Notavelmente, o SWE-Agent pode concluir as tarefas do benchmark em cerca de 93 segundos, significativamente mais rápido do que o desempenho de 5 minutos do Deon.

  5. Código Aberto e Acessibilidade: O projeto SWE-Agent é completamente de código aberto, e os desenvolvedores planejam lançar em breve o artigo detalhando a arquitetura e as capacidades do sistema. Essa transparência e acessibilidade permitem que a comunidade de código aberto aprimore e expanda ainda mais a funcionalidade do agente.

O impressionante desempenho do SWE-Agent em 93 segundos

O SWE-Agent, um novo projeto de código aberto, demonstrou um desempenho impressionante no Benchmark SWE, que é baseado na resolução de problemas do GitHub. O SWE-Agent é capaz de alcançar um desempenho muito próximo ao do sistema proprietário Devon, que anteriormente era considerado o estado da arte.

Notavelmente, o SWE-Agent consegue concluir o benchmark em apenas 93 segundos, o que é significativamente mais rápido do que os 5 minutos necessários pelo Devon. Isso sugere que o SWE-Agent possui uma abordagem altamente eficiente e otimizada para resolver tarefas de engenharia de software.

Além disso, o desempenho do SWE-Agent é alcançado no conjunto de dados completo do Benchmark SWE, ao contrário do Devon, que foi testado em apenas 25% do conjunto de dados. Isso indica que as capacidades do SWE-Agent são mais robustas e generalizáveis.

O sucesso do SWE-Agent é atribuído à sua arquitetura única, que inclui uma "Interface Agente-Computador" que fornece uma camada de abstração entre o modelo de linguagem e o terminal do computador. Isso permite que o agente interaja com a base de código de uma maneira mais natural e eficiente.

Limitações do SWE-Agent e a necessidade de LLMs poderosos

Embora o SWE-Agent tenha demonstrado um desempenho impressionante no Benchmark SWE, ele atualmente está limitado a trabalhar com repositórios do GitHub. As capacidades do agente são restritas a tarefas específicas de engenharia de software e ele não pode ser usado para outros tipos de tarefas. Além disso, o agente requer o uso de modelos de linguagem poderosos, como Opus ou GPT-4, para funcionar efetivamente. Os modelos de linguagem de código aberto atualmente disponíveis não são capazes o suficiente para executar agentes como o SWE-Agent.

No entanto, o progresso feito pelo SWE-Agent e projetos semelhantes é encorajador. À medida que a comunidade de código aberto continuar a desenvolver modelos de linguagem mais avançados, as capacidades desses agentes de engenharia de software provavelmente se expandirão. O lançamento do artigo sobre o SWE-Agent é aguardado com ansiedade, pois pode fornecer insights valiosos sobre o desenvolvimento e o potencial desse tipo de sistema.

Conclusão

O surgimento de projetos de código aberto como o SWA Agent, que podem se aproximar do desempenho do sistema proprietário Devon, é um desenvolvimento significativo no campo da engenharia de software impulsionada por IA. A capacidade do SWA Agent de resolver problemas do GitHub de forma autônoma em questão de segundos, em comparação aos 5 minutos necessários pelo Devon, é um feito impressionante.

Enquanto o SWA Agent atualmente está limitado a problemas do GitHub, a comunidade de código aberto provavelmente continuará a expandir suas capacidades. O lançamento do artigo do projeto fornecerá insights valiosos sobre as técnicas e abordagens subjacentes utilizadas.

Uma conclusão-chave é que a principal vantagem dos sistemas proprietários como o Devon reside em seu acesso a dados e recursos computacionais proprietários, e não em uma superioridade tecnológica inerente. A capacidade da comunidade de código aberto de replicar um desempenho tão impressionante destaca o potencial para avanços futuros nesse campo.

No entanto, as limitações atuais dos modelos de linguagem de código aberto na execução desses agentes avançados ainda são um desafio. A necessidade de modelos mais poderosos, como Opus ou GPT-4, é evidente. À medida que o campo avança, será emocionante ver como a comunidade de código aberto continua a empurrar as fronteiras da engenharia de software impulsionada por IA.

Perguntas frequentes