Revolucionando os Agentes de IA: Desbloqueando o Controle do Computador com o Mundo do SO
Revolucione os agentes de IA com o OS World, um novo projeto de código aberto que fornece um ambiente robusto para avaliar e testar agentes de IA em ambientes de computador reais. Saiba como esse avanço permite que os agentes executem tarefas complexas, vinculando instruções a ações concretas.
14 de fevereiro de 2025

Desbloqueie o futuro dos agentes de IA com o OS World, um projeto revolucionário que permite o controle perfeito de computadores em diferentes sistemas operacionais. Descubra como essa plataforma de código aberto revoluciona a maneira como avaliamos e melhoramos os agentes de IA, capacitando-os a enfrentar tarefas complexas do mundo real com precisão e eficiência.
Como o OS World Permite que Agentes de IA Controlem Computadores em Diferentes Sistemas Operacionais
Definindo Agentes Inteligentes e Seus Principais Componentes
Os Desafios de Controlar Computadores para Agentes de IA
OS World: Um Ambiente de Computador do Mundo Real Escalável para Benchmarking de Agentes de IA
Avaliando o Desempenho do Agente no OS World
Conclusão
Como o OS World Permite que Agentes de IA Controlem Computadores em Diferentes Sistemas Operacionais
Como o OS World Permite que Agentes de IA Controlem Computadores em Diferentes Sistemas Operacionais
O OS World é um novo projeto que visa abordar o desafio da avaliação e teste de agentes de IA em ambientes de computador reais. As principais características do OS World incluem:
-
Ambiente Multimodal Unificado: O OS World fornece um ambiente unificado para que os agentes de IA operem em diferentes sistemas operacionais, aplicativos e interfaces, incluindo interfaces gráficas de usuário (GUIs) e interfaces de linha de comando (CLIs).
-
Espaços de Observação e Ação: O OS World define o espaço de observação, que inclui o ambiente de área de trabalho atual, instruções, capturas de tela e árvores de acessibilidade. Também define o espaço de ação, que inclui ações como movimentação do mouse, cliques, entrada de teclado e mais.
-
Métricas de Avaliação: O OS World inclui tarefas de computador do mundo real cuidadosamente anotadas, com configurações de estado inicial e scripts de avaliação personalizados para avaliar o desempenho dos agentes de IA.
-
Acessibilidade e Fundamentação: O OS World fornece informações de acessibilidade e fundamentação para permitir que os agentes de IA interpretem e executem instruções, superando as limitações de abordagens como o interpretador aberto que dependem de interações imprecisas baseadas em capturas de tela.
-
Código Aberto e Reprodutível: O projeto OS World, incluindo o artigo de pesquisa, o código e os dados, é de código aberto, permitindo a reprodutibilidade e o desenvolvimento adicional pela comunidade de pesquisa.
Definindo Agentes Inteligentes e Seus Principais Componentes
Definindo Agentes Inteligentes e Seus Principais Componentes
Um agente inteligente é definido como um sistema que percebe seu ambiente por meio de sensores e age sobre esse ambiente por meio de atuadores, de maneira racional, para atingir seus objetivos. Os principais componentes de um agente inteligente são:
-
Sensores: Os meios do agente de perceber seu ambiente, como câmeras, microfones ou outros dispositivos de entrada.
-
Atuadores: Os meios do agente de agir sobre seu ambiente, como motores, alto-falantes ou outros dispositivos de saída.
-
Autonomia: A capacidade do agente de operar sem controle humano direto.
-
Reatividade: A capacidade do agente de perceber e responder a mudanças em seu ambiente de maneira oportuna.
-
Proatividade: A capacidade do agente de exibir um comportamento orientado a objetivos, tomando a iniciativa para alcançar seus objetivos.
-
Habilidade Social: A capacidade do agente de interagir com outros agentes ou humanos em seu ambiente.
Esses componentes permitem que o agente perceba seu ambiente, planeje e execute ações e aprenda com suas experiências para melhorar seu desempenho ao longo do tempo. O objetivo de um agente inteligente é maximizar seu desempenho na realização de seus objetivos, operando dentro das restrições de seu ambiente.
Os Desafios de Controlar Computadores para Agentes de IA
Os Desafios de Controlar Computadores para Agentes de IA
Controlar computadores e executar tarefas em ambientes digitais tem sido um desafio significativo para os agentes de IA. A apresentação destaca as principais questões:
-
Fundamentação de Instruções em Ações: Simplesmente fornecer instruções passo a passo não é suficiente para que um agente de IA execute uma tarefa com sucesso. O agente precisa ser capaz de fundamentar essas instruções em ações reais que possam controlar a interface do computador, seja um mouse, teclado ou outros métodos de entrada.
-
Sistemas Fechados e Proprietários: Sistemas operacionais como macOS e Windows são fechados e proprietários, dificultando que os agentes de IA controlem precisamente o ambiente do computador. As abordagens existentes, como o uso de recursos de acessibilidade e grades de capturas de tela, são imprecisas e ineficientes.
-
Falta de Feedback e Iteração: Sem a capacidade de perceber o ambiente e receber feedback, os agentes de IA têm dificuldade em gerar planos precisos e de várias etapas para executar tarefas. A falta de interação com o ambiente real limita sua capacidade de aprender e melhorar.
-
Complexidade de Tarefas do Mundo Real: Muitas tarefas de computador do mundo real envolvem múltiplos aplicativos, interfaces e fluxos de trabalho. Traduzir instruções de alto nível nas ações necessárias para concluir essas tarefas complexas é um desafio significativo para os agentes de IA atuais.
OS World: Um Ambiente de Computador do Mundo Real Escalável para Benchmarking de Agentes de IA
OS World: Um Ambiente de Computador do Mundo Real Escalável para Benchmarking de Agentes de IA
O projeto OS World visa fornecer um ambiente de computador real escalável que possa servir como um ambiente multimodal unificado de agentes para avaliar tarefas de computador abertas. Ao oferecer acesso a vários sistemas operacionais, aplicativos e interfaces, juntamente com observações e feedback detalhados, o OS World permite que os agentes de IA fundamentem suas instruções em ações precisas e iterem sobre seu desempenho.
Avaliando o Desempenho do Agente no OS World
Avaliando o Desempenho do Agente no OS World
O OS World é um novo projeto que visa abordar o desafio de testar de forma consistente e completa os agentes de IA. Ele fornece um ambiente robusto, vários sistemas operacionais e uma maneira para que os agentes interajam com o ambiente e meçam seu desempenho.
As principais características do OS World incluem:
-
Ambiente Multimodal de Agentes: O OS World serve como um ambiente unificado para avaliar tarefas de computador abertas que envolvem aplicativos e interfaces arbitrárias em diferentes sistemas operacionais.
-
Modos de Observação: Os agentes podem receber observações por meio de vários modos, incluindo a árvore de acessibilidade, capturas de tela e um conjunto de marcas (uma representação baseada em grade da tela).
-
Espaço de Ação: Os agentes podem realizar uma série de ações, como movimentação do mouse, cliques, entrada de teclado e uso de atalhos, para interagir com o ambiente.
-
Avaliação de Tarefas: O OS World inclui tarefas de computador do mundo real cuidadosamente anotadas, com configurações de estado inicial e scripts de avaliação personalizados com base na execução para avaliar o desempenho do agente.
-
Avaliação Comparativa: O projeto foi usado para avaliar comparativamente vários agentes, incluindo Cog Agent, GPT-4 e Gemini Pro Cloud 3, demonstrando a eficácia dos modos de observação baseados em árvore de acessibilidade e capturas de tela.
-
Código Aberto: O projeto OS World, incluindo o código e os dados, é de código aberto, permitindo que pesquisadores e desenvolvedores acessem e construam sobre a plataforma.
Conclusão
Conclusão
O projeto OS World visa fornecer um ambiente robusto e escalável para avaliar o desempenho de agentes de IA na execução de tarefas de computador do mundo real. Os principais aspectos desse processo de avaliação são:
-
Formalização de Tarefas: Uma tarefa de agente é formalizada como um Processo de Decisão de Markov Parcialmente Observável (POMDP), com um espaço de estados, espaço de observação, espaço de ação, função de transição e função de recompensa definidos.
-
Modalidades de Observação: Os agentes podem receber observações por meio de várias modalidades, incluindo a árvore de acessibilidade, capturas de tela e um conjunto de coordenadas de caixas delimitadoras (marcas). Esses fornecem diferentes níveis de informação sobre o estado atual do ambiente.
-
Espaço de Ação: Os agentes podem realizar uma série de ações para interagir com o ambiente do computador, como movimentação do mouse, cliques, entrada de teclado, rolagem e uso de atalhos.
-
Avaliação da Execução de Tarefas: Cada tarefa é cuidadosamente anotada com instruções do mundo real, uma configuração de estado inicial e um script de avaliação personalizado que verifica se a tarefa foi concluída com sucesso.
-
Tarefas de Referência: O projeto OS World inclui 369 tarefas de computador do mundo real envolvendo aplicativos da web e de desktop, operações de arquivos e fluxos de trabalho multi-aplicativos, fornecendo um conjunto abrangente de referências para avaliar o desempenho dos agentes.
O projeto OS World é um passo significativo no campo da avaliação de agentes de IA. Ao fornecer um ambiente de código aberto robusto para que os agentes interajam com sistemas e aplicativos de computador reais, ele aborda uma lacuna crítica no estado atual da avaliação de IA.
Os principais destaques do projeto OS World são:
-
Interação Multimodal: O ambiente suporta uma variedade de modalidades de entrada, incluindo capturas de tela, árvores de acessibilidade e conjunto de marcas, permitindo que os agentes percebam e interajam com o ambiente do computador de uma maneira mais natural e abrangente.
-
Tarefas do Mundo Real: O projeto inclui um conjunto diversificado de 369 tarefas de computador do mundo real, cuidadosamente selecionadas a partir de instruções de usuários, que envolvem fluxos de trabalho de várias etapas em vários aplicativos e sistemas operacionais.
-
Avaliação Rigorosa: As tarefas são acompanhadas de configurações de estado inicial detalhadas e scripts de avaliação personalizados, permitindo uma avaliação padronizada e objetiva do desempenho do agente.
-
Disponibilidade de Código Aberto: Todo o projeto, incluindo o código, os dados e o artigo de pesquisa, está disponível abertamente, promovendo a colaboração e o avanço adicional no campo.
Perguntas frequentes
Perguntas frequentes