Revolucionando los agentes de IA: Desbloqueando el control de la computadora con el mundo del sistema operativo

Revoluciona a los agentes de IA con OS World, un nuevo proyecto de código abierto que proporciona un entorno sólido para evaluar y probar agentes de IA en entornos informáticos reales. Aprende cómo este avance permite a los agentes ejecutar tareas complejas al convertir las instrucciones en acciones concretas.

15 de febrero de 2025

party-gif

Desbloquea el futuro de los agentes de IA con OS World, un proyecto revolucionario que permite el control sin problemas de las computadoras a través de los sistemas operativos. Descubre cómo esta plataforma de código abierto revoluciona la forma en que evaluamos y mejoramos a los agentes de IA, capacitándolos para abordar tareas complejas del mundo real con precisión y eficiencia.

Cómo OS World permite a los agentes de IA controlar computadoras a través de sistemas operativos

OS World es un nuevo proyecto que tiene como objetivo abordar el desafío de la evaluación y prueba de agentes de IA en entornos informáticos reales. Las características clave de OS World incluyen:

  1. Entorno Multimodal Unificado: OS World proporciona un entorno unificado para que los agentes de IA operen a través de diferentes sistemas operativos, aplicaciones e interfaces, incluyendo tanto interfaces gráficas de usuario (GUI) como interfaces de línea de comandos (CLI).

  2. Espacios de Observación y Acción: OS World define el espacio de observación, que incluye el entorno de escritorio actual, instrucciones, capturas de pantalla y árboles de accesibilidad. También define el espacio de acción, que incluye acciones como movimientos del mouse, clics, entrada de teclado y más.

  3. Métricas de Evaluación: OS World incluye tareas informáticas reales cuidadosamente anotadas, con configuraciones de estado inicial y scripts de evaluación personalizados para evaluar el desempeño de los agentes de IA.

  4. Accesibilidad y Fundamentación: OS World proporciona información de accesibilidad y fundamentación para permitir que los agentes de IA interpreten y ejecuten instrucciones, superando las limitaciones de enfoques como el intérprete abierto que se basan en interacciones imprecisas basadas en capturas de pantalla.

  5. Código Abierto y Reproducible: El proyecto OS World, incluido el documento de investigación, el código y los datos, es de código abierto, lo que permite la reproducibilidad y el desarrollo adicional por parte de la comunidad de investigación.

La idea clave detrás de OS World es que, para permitir que los agentes de IA realicen tareas informáticas del mundo real, necesitan acceso al sistema operativo subyacente y a las interfaces de las aplicaciones, no solo a capturas de pantalla de alto nivel. Al proporcionar esta fundamentación, OS World tiene como objetivo facilitar el desarrollo de agentes de IA más capaces y versátiles que puedan operar sin problemas en diferentes entornos informáticos.

Definición de agentes inteligentes y sus componentes clave

Un agente inteligente se define como un sistema que percibe su entorno a través de sensores y actúa sobre ese entorno a través de efectores, de una manera racional para lograr sus objetivos. Los componentes clave de un agente inteligente son:

  1. Sensores: Los medios del agente para percibir su entorno, como cámaras, micrófonos u otros dispositivos de entrada.

  2. Efectores: Los medios del agente para actuar sobre su entorno, como motores, altavoces u otros dispositivos de salida.

  3. Autonomía: La capacidad del agente para operar sin control humano directo.

  4. Reactividad: La capacidad del agente para percibir y responder a los cambios en su entorno de manera oportuna.

  5. Proactividad: La capacidad del agente para exhibir un comportamiento orientado a objetivos al tomar la iniciativa para lograr sus objetivos.

  6. Habilidad Social: La capacidad del agente para interactuar con otros agentes o humanos en su entorno.

Estos componentes permiten que el agente perciba su entorno, planifique y ejecute acciones, y aprenda de sus experiencias para mejorar su desempeño con el tiempo. El objetivo de un agente inteligente es maximizar su desempeño en el logro de sus objetivos, mientras opera dentro de las restricciones de su entorno.

Los desafíos de controlar computadoras para los agentes de IA

Controlar computadoras y ejecutar tareas en entornos digitales ha sido un desafío significativo para los agentes de IA. La presentación destaca los problemas clave:

  1. Fundamentar Instrucciones en Acciones: Simplemente proporcionar instrucciones paso a paso no es suficiente para que un agente de IA ejecute una tarea con éxito. El agente necesita poder fundamentar esas instrucciones en acciones reales que puedan controlar la interfaz del computador, ya sea un mouse, teclado u otros métodos de entrada.

  2. Sistemas Cerrados y Propietarios: Los sistemas operativos como macOS y Windows son cerrados y propietarios, lo que dificulta que los agentes de IA controlen con precisión el entorno informático. Los enfoques existentes, como el uso de funciones de accesibilidad y cuadrículas de capturas de pantalla, son imprecisos e ineficientes.

  3. Falta de Retroalimentación e Iteración: Sin la capacidad de percibir el entorno y recibir retroalimentación, los agentes de IA luchan por generar planes precisos y de varios pasos para ejecutar tareas. La falta de interacción con el entorno real limita su capacidad de aprender y mejorar.

  4. Complejidad de las Tareas del Mundo Real: Muchas tareas informáticas del mundo real involucran múltiples aplicaciones, interfaces y flujos de trabajo. Traducir instrucciones de alto nivel a las acciones necesarias para completar estas tareas complejas es un desafío significativo para los agentes de IA actuales.

Para abordar estos desafíos, el proyecto OS World tiene como objetivo proporcionar un entorno informático real y escalable que pueda servir como un entorno multimodal unificado de agentes para evaluar tareas informáticas abiertas. Al ofrecer acceso a varios sistemas operativos, aplicaciones e interfaces, junto con observaciones y retroalimentación detalladas, OS World permite que los agentes de IA fundamenten sus instrucciones en acciones precisas e iterar sobre su desempeño.

OS World: un entorno informático del mundo real escalable para la evaluación de agentes de IA

OS World es un nuevo proyecto que tiene como objetivo abordar el desafío de probar de manera consistente y exhaustiva a los agentes de IA. Proporciona un entorno robusto, múltiples sistemas operativos y una forma para que los agentes interactúen con el entorno y midan su desempeño.

Las características clave de OS World incluyen:

  1. Entorno Multimodal de Agentes: OS World sirve como un entorno unificado para evaluar tareas informáticas abiertas que involucren aplicaciones e interfaces arbitrarias a través de los sistemas operativos.

  2. Modos de Observación: Los agentes pueden recibir observaciones a través de varios modos, incluido el árbol de accesibilidad, capturas de pantalla y un conjunto de marcas (una representación basada en cuadrícula de la pantalla).

  3. Espacio de Acción: Los agentes pueden realizar una variedad de acciones, como movimientos del mouse, clics, entrada de teclado y uso de atajos de teclado, para interactuar con el entorno.

  4. Evaluación de Tareas: OS World incluye tareas informáticas del mundo real cuidadosamente anotadas, con configuraciones de estado inicial y scripts de evaluación personalizados basados en la ejecución para evaluar el desempeño del agente.

  5. Evaluación Comparativa: El proyecto se ha utilizado para evaluar comparativamente varios agentes, incluidos Cog Agent, GPT-4 y Gemini Pro Cloud 3, demostrando la efectividad de los modos de observación basados en el árbol de accesibilidad y las capturas de pantalla.

  6. Código Abierto: El proyecto OS World, incluido el código y los datos, es de código abierto, lo que permite a los investigadores y desarrolladores acceder y construir sobre la plataforma.

Al proporcionar un entorno estandarizado y escalable para probar agentes de IA, OS World tiene como objetivo hacer avanzar el campo de la IA basada en agentes y permitir una evaluación de desempeño más robusta y confiable.

Evaluación del rendimiento de los agentes en OS World

El proyecto OS World tiene como objetivo proporcionar un entorno robusto y escalable para evaluar el desempeño de los agentes de IA en la ejecución de tareas informáticas del mundo real. Los aspectos clave de este proceso de evaluación son:

  1. Formalización de Tareas: Una tarea de agente se formaliza como un Proceso de Decisión de Markov Parcialmente Observable (POMDP), con un espacio de estados, espacio de observación, espacio de acción, función de transición y función de recompensa definidos.

  2. Modalidades de Observación: Los agentes pueden recibir observaciones a través de varias modalidades, incluido el árbol de accesibilidad, capturas de pantalla y un conjunto de coordenadas de cuadros delimitadores (marcas). Estos proporcionan diferentes niveles de información sobre el estado actual del entorno.

  3. Espacio de Acción: Los agentes pueden realizar una variedad de acciones para interactuar con el entorno informático, como movimientos del mouse, clics, entrada de teclado, desplazamiento y uso de atajos de teclado.

  4. Evaluación de Ejecución de Tareas: Cada tarea se anota cuidadosamente con instrucciones del mundo real, una configuración de estado inicial y un script de evaluación personalizado que verifica si se completó la tarea con éxito.

  5. Tareas de Referencia: El proyecto OS World incluye 369 tareas informáticas del mundo real que involucran aplicaciones web y de escritorio, operaciones de archivos y flujos de trabajo de varias aplicaciones, proporcionando un conjunto integral de referencia para evaluar el desempeño de los agentes.

Los resultados presentados en el documento muestran que los modelos de lenguaje a gran escala como GPT-4 se desempeñan mejor cuando se les proporciona el árbol de accesibilidad o una combinación de la captura de pantalla y el árbol de accesibilidad, superando a otras modalidades de entrada como solo captura de pantalla o conjunto de marcas. Esto sugiere que el árbol de accesibilidad proporciona la fundamentación más informativa para que los agentes ejecuten tareas en el entorno OS World.

El proyecto OS World representa un avance significativo en el desarrollo de referencia robustas y escalables para evaluar las capacidades de los agentes de IA en entornos informáticos del mundo real. Al proporcionar una plataforma estandarizada y de código abierto, permite que los investigadores y desarrolladores evalúen y mejoren sistemáticamente el desempeño de sus agentes a través de una amplia gama de tareas y escenarios.

Conclusión

El proyecto OS World es un paso importante en el campo de la evaluación de agentes de IA. Al proporcionar un entorno robusto y de código abierto para que los agentes interactúen con sistemas y aplicaciones informáticas reales, aborda una brecha crítica en el estado actual de la evaluación de IA.

Los aspectos clave del proyecto OS World son:

  1. Interacción Multimodal: El entorno admite una variedad de modalidades de entrada, incluidas capturas de pantalla, árboles de accesibilidad y conjuntos de marcas, lo que permite que los agentes perciban e interactúen con el entorno informático de una manera más natural y completa.

  2. Tareas del Mundo Real: El proyecto incluye un conjunto diverso de 369 tareas informáticas del mundo real, cuidadosamente seleccionadas a partir de instrucciones de usuarios, que involucran flujos de trabajo de varios pasos a través de varias aplicaciones y sistemas operativos.

  3. Evaluación Rigurosa: Las tareas van acompañadas de configuraciones de estado inicial detalladas y scripts de evaluación personalizados, lo que permite una evaluación estandarizada y objetiva del desempeño de los agentes.

  4. Disponibilidad de Código Abierto: Todo el proyecto, incluido el código, los datos y el documento de investigación, está disponible de forma abierta, lo que fomenta la colaboración y el avance adicional en el campo.

Los resultados presentados en el documento demuestran el potencial de los modelos de lenguaje a gran escala, como GPT-4, para abordar estas tareas informáticas complejas del mundo real, siendo el árbol de accesibilidad o una combinación de captura de pantalla y árbol de accesibilidad las modalidades de entrada más efectivas.

El proyecto OS World representa un paso importante hacia la construcción de agentes de IA más capaces y versátiles que puedan integrarse sin problemas y asistir a los humanos en sus tareas digitales diarias. A medida que el campo de la IA continúa evolucionando, iniciativas como esta serán cruciales para impulsar el progreso y garantizar el desarrollo de agentes que puedan operar realmente en el mundo real.

Preguntas más frecuentes