Revolucionando os Agentes de IA: Desbloqueando o Controle do Computador com o Mundo do SO

Revolucione os agentes de IA com o OS World, um novo projeto de código aberto que fornece um ambiente robusto para avaliar e testar agentes de IA em ambientes de computador reais. Saiba como esse avanço permite que os agentes executem tarefas complexas, vinculando instruções a ações concretas.

14 de fevereiro de 2025

party-gif

Desbloqueie o futuro dos agentes de IA com o OS World, um projeto revolucionário que permite o controle perfeito de computadores em diferentes sistemas operacionais. Descubra como essa plataforma de código aberto revoluciona a maneira como avaliamos e melhoramos os agentes de IA, capacitando-os a enfrentar tarefas complexas do mundo real com precisão e eficiência.

Como o OS World Permite que Agentes de IA Controlem Computadores em Diferentes Sistemas Operacionais

O OS World é um novo projeto que visa abordar o desafio da avaliação e teste de agentes de IA em ambientes de computador reais. As principais características do OS World incluem:

  1. Ambiente Multimodal Unificado: O OS World fornece um ambiente unificado para que os agentes de IA operem em diferentes sistemas operacionais, aplicativos e interfaces, incluindo interfaces gráficas de usuário (GUIs) e interfaces de linha de comando (CLIs).

  2. Espaços de Observação e Ação: O OS World define o espaço de observação, que inclui o ambiente de área de trabalho atual, instruções, capturas de tela e árvores de acessibilidade. Também define o espaço de ação, que inclui ações como movimentação do mouse, cliques, entrada de teclado e mais.

  3. Métricas de Avaliação: O OS World inclui tarefas de computador do mundo real cuidadosamente anotadas, com configurações de estado inicial e scripts de avaliação personalizados para avaliar o desempenho dos agentes de IA.

  4. Acessibilidade e Fundamentação: O OS World fornece informações de acessibilidade e fundamentação para permitir que os agentes de IA interpretem e executem instruções, superando as limitações de abordagens como o interpretador aberto que dependem de interações imprecisas baseadas em capturas de tela.

  5. Código Aberto e Reprodutível: O projeto OS World, incluindo o artigo de pesquisa, o código e os dados, é de código aberto, permitindo a reprodutibilidade e o desenvolvimento adicional pela comunidade de pesquisa.

Definindo Agentes Inteligentes e Seus Principais Componentes

Um agente inteligente é definido como um sistema que percebe seu ambiente por meio de sensores e age sobre esse ambiente por meio de atuadores, de maneira racional, para atingir seus objetivos. Os principais componentes de um agente inteligente são:

  1. Sensores: Os meios do agente de perceber seu ambiente, como câmeras, microfones ou outros dispositivos de entrada.

  2. Atuadores: Os meios do agente de agir sobre seu ambiente, como motores, alto-falantes ou outros dispositivos de saída.

  3. Autonomia: A capacidade do agente de operar sem controle humano direto.

  4. Reatividade: A capacidade do agente de perceber e responder a mudanças em seu ambiente de maneira oportuna.

  5. Proatividade: A capacidade do agente de exibir um comportamento orientado a objetivos, tomando a iniciativa para alcançar seus objetivos.

  6. Habilidade Social: A capacidade do agente de interagir com outros agentes ou humanos em seu ambiente.

Esses componentes permitem que o agente perceba seu ambiente, planeje e execute ações e aprenda com suas experiências para melhorar seu desempenho ao longo do tempo. O objetivo de um agente inteligente é maximizar seu desempenho na realização de seus objetivos, operando dentro das restrições de seu ambiente.

Os Desafios de Controlar Computadores para Agentes de IA

Controlar computadores e executar tarefas em ambientes digitais tem sido um desafio significativo para os agentes de IA. A apresentação destaca as principais questões:

  1. Fundamentação de Instruções em Ações: Simplesmente fornecer instruções passo a passo não é suficiente para que um agente de IA execute uma tarefa com sucesso. O agente precisa ser capaz de fundamentar essas instruções em ações reais que possam controlar a interface do computador, seja um mouse, teclado ou outros métodos de entrada.

  2. Sistemas Fechados e Proprietários: Sistemas operacionais como macOS e Windows são fechados e proprietários, dificultando que os agentes de IA controlem precisamente o ambiente do computador. As abordagens existentes, como o uso de recursos de acessibilidade e grades de capturas de tela, são imprecisas e ineficientes.

  3. Falta de Feedback e Iteração: Sem a capacidade de perceber o ambiente e receber feedback, os agentes de IA têm dificuldade em gerar planos precisos e de várias etapas para executar tarefas. A falta de interação com o ambiente real limita sua capacidade de aprender e melhorar.

  4. Complexidade de Tarefas do Mundo Real: Muitas tarefas de computador do mundo real envolvem múltiplos aplicativos, interfaces e fluxos de trabalho. Traduzir instruções de alto nível nas ações necessárias para concluir essas tarefas complexas é um desafio significativo para os agentes de IA atuais.

OS World: Um Ambiente de Computador do Mundo Real Escalável para Benchmarking de Agentes de IA

O projeto OS World visa fornecer um ambiente de computador real escalável que possa servir como um ambiente multimodal unificado de agentes para avaliar tarefas de computador abertas. Ao oferecer acesso a vários sistemas operacionais, aplicativos e interfaces, juntamente com observações e feedback detalhados, o OS World permite que os agentes de IA fundamentem suas instruções em ações precisas e iterem sobre seu desempenho.

Avaliando o Desempenho do Agente no OS World

O OS World é um novo projeto que visa abordar o desafio de testar de forma consistente e completa os agentes de IA. Ele fornece um ambiente robusto, vários sistemas operacionais e uma maneira para que os agentes interajam com o ambiente e meçam seu desempenho.

As principais características do OS World incluem:

  1. Ambiente Multimodal de Agentes: O OS World serve como um ambiente unificado para avaliar tarefas de computador abertas que envolvem aplicativos e interfaces arbitrárias em diferentes sistemas operacionais.

  2. Modos de Observação: Os agentes podem receber observações por meio de vários modos, incluindo a árvore de acessibilidade, capturas de tela e um conjunto de marcas (uma representação baseada em grade da tela).

  3. Espaço de Ação: Os agentes podem realizar uma série de ações, como movimentação do mouse, cliques, entrada de teclado e uso de atalhos, para interagir com o ambiente.

  4. Avaliação de Tarefas: O OS World inclui tarefas de computador do mundo real cuidadosamente anotadas, com configurações de estado inicial e scripts de avaliação personalizados com base na execução para avaliar o desempenho do agente.

  5. Avaliação Comparativa: O projeto foi usado para avaliar comparativamente vários agentes, incluindo Cog Agent, GPT-4 e Gemini Pro Cloud 3, demonstrando a eficácia dos modos de observação baseados em árvore de acessibilidade e capturas de tela.

  6. Código Aberto: O projeto OS World, incluindo o código e os dados, é de código aberto, permitindo que pesquisadores e desenvolvedores acessem e construam sobre a plataforma.

Conclusão

O projeto OS World visa fornecer um ambiente robusto e escalável para avaliar o desempenho de agentes de IA na execução de tarefas de computador do mundo real. Os principais aspectos desse processo de avaliação são:

  1. Formalização de Tarefas: Uma tarefa de agente é formalizada como um Processo de Decisão de Markov Parcialmente Observável (POMDP), com um espaço de estados, espaço de observação, espaço de ação, função de transição e função de recompensa definidos.

  2. Modalidades de Observação: Os agentes podem receber observações por meio de várias modalidades, incluindo a árvore de acessibilidade, capturas de tela e um conjunto de coordenadas de caixas delimitadoras (marcas). Esses fornecem diferentes níveis de informação sobre o estado atual do ambiente.

  3. Espaço de Ação: Os agentes podem realizar uma série de ações para interagir com o ambiente do computador, como movimentação do mouse, cliques, entrada de teclado, rolagem e uso de atalhos.

  4. Avaliação da Execução de Tarefas: Cada tarefa é cuidadosamente anotada com instruções do mundo real, uma configuração de estado inicial e um script de avaliação personalizado que verifica se a tarefa foi concluída com sucesso.

  5. Tarefas de Referência: O projeto OS World inclui 369 tarefas de computador do mundo real envolvendo aplicativos da web e de desktop, operações de arquivos e fluxos de trabalho multi-aplicativos, fornecendo um conjunto abrangente de referências para avaliar o desempenho dos agentes.

O projeto OS World é um passo significativo no campo da avaliação de agentes de IA. Ao fornecer um ambiente de código aberto robusto para que os agentes interajam com sistemas e aplicativos de computador reais, ele aborda uma lacuna crítica no estado atual da avaliação de IA.

Os principais destaques do projeto OS World são:

  1. Interação Multimodal: O ambiente suporta uma variedade de modalidades de entrada, incluindo capturas de tela, árvores de acessibilidade e conjunto de marcas, permitindo que os agentes percebam e interajam com o ambiente do computador de uma maneira mais natural e abrangente.

  2. Tarefas do Mundo Real: O projeto inclui um conjunto diversificado de 369 tarefas de computador do mundo real, cuidadosamente selecionadas a partir de instruções de usuários, que envolvem fluxos de trabalho de várias etapas em vários aplicativos e sistemas operacionais.

  3. Avaliação Rigorosa: As tarefas são acompanhadas de configurações de estado inicial detalhadas e scripts de avaliação personalizados, permitindo uma avaliação padronizada e objetiva do desempenho do agente.

  4. Disponibilidade de Código Aberto: Todo o projeto, incluindo o código, os dados e o artigo de pesquisa, está disponível abertamente, promovendo a colaboração e o avanço adicional no campo.

Perguntas frequentes