革命性的 AI 代理人:解锁操作系统世界的计算机控制

使用 OS World 这个新的开源项目,革新 AI 代理。该项目提供了一个强大的环境,用于在真实的计算机环境中对 AI 代理进行基准测试和测试。了解这一突破性进展如何使代理能够通过将指令转化为具体行动来执行复杂任务。

2025年2月20日

party-gif

使用 OS World 解锁 AI 代理的未来,这是一个开创性的项目,可实现跨操作系统的计算机无缝控制。探索这个开源平台如何革新我们评估和改进 AI 代理的方式,使他们能够以精度和效率解决复杂的现实世界任务。

操作系统世界如何使人工智能代理控制跨操作系统的计算机

操作系统世界(OS World)是一个新的项目,旨在解决在真实计算机环境中对AI代理进行基准测试和测试的挑战。OS World的主要特点包括:

  1. 统一的多模态环境:OS World为AI代理提供了一个统一的环境,可以在不同的操作系统、应用程序和界面(包括图形用户界面(GUI)和命令行界面(CLI))中进行操作。

  2. 观察和行动空间:OS World定义了观察空间,包括当前的桌面环境、说明、屏幕截图和辅助功能树。它还定义了行动空间,包括鼠标移动、点击、键盘输入等操作。

  3. 评估指标:OS World包括经过仔细注释的真实世界计算机任务,具有初始状态配置和自定义评估脚本,以评估AI代理的性能。

  4. 可访问性和基础:OS World提供可访问性信息和基础,使AI代理能够解释和执行指令,克服依赖于不精确的基于屏幕截图的交互的方法的局限性。

  5. 开源和可复制:OS World项目,包括研究论文、代码和数据,都是开源的,允许研究社区进行复制和进一步发展。

OS World背后的关键洞见是,为了使AI代理能够执行真实世界的计算机任务,他们需要访问底层操作系统和应用程序接口,而不仅仅是高级屏幕截图。通过提供这种基础,OS World旨在促进更强大和更通用的AI代理的发展,使其能够在不同的计算环境中无缝运行。

定义智能代理及其关键组件

智能代理被定义为一个通过传感器感知其环境,并通过执行器以理性的方式对该环境采取行动以实现其目标的系统。智能代理的关键组成部分包括:

  1. 传感器:代理感知环境的手段,如摄像头、麦克风或其他输入设备。

  2. 执行器:代理作用于环境的手段,如电机、扬声器或其他输出设备。

  3. 自主性:代理在没有直接人类控制的情况下进行操作的能力。

  4. 反应性:代理及时感知和响应环境变化的能力。

  5. 主动性:代理通过主动采取行动来实现目标的能力。

  6. 社交能力:代理与环境中其他代理或人类进行交互的能力。

这些组成部分使代理能够感知环境、规划和执行行动,并从经验中学习以提高其性能。智能代理的目标是在其环境的约束条件下,最大化其实现目标的性能。

人工智能代理控制计算机的挑战

控制计算机并在数字环境中执行任务一直是AI代理面临的一个重大挑战。本文重点介绍了关键问题:

  1. 将指令转化为行动:仅提供分步指令是不够的,AI代理需要能够将这些指令转化为实际的操作,以控制计算机界面,无论是鼠标、键盘还是其他输入方式。

  2. 封闭和专有系统:macOS和Windows等操作系统是封闭和专有的,这使得AI代理很难精确地控制计算机环境。现有的方法,如使用辅助功能特性和屏幕截图网格,都不够精确和高效。

  3. 缺乏反馈和迭代:没有感知环境和获得反馈的能力,AI代理难以生成准确的多步计划来执行任务。缺乏与真实环境的交互限制了他们的学习和改进能力。

  4. 真实世界任务的复杂性:许多真实世界的计算机任务涉及多个应用程序、界面和工作流程。将高级指令转化为完成这些复杂任务所需的操作是当前AI代理面临的重大挑战。

为了解决这些挑战,OS World项目旨在提供一个可扩展的真实计算机环境,作为评估开放式计算机任务的统一多模态代理环境。通过提供对各种操作系统、应用程序和界面的访问,以及详细的观察和反馈,OS World使AI代理能够将指令转化为精确的操作,并对其性能进行迭代改进。

操作系统世界:用于评估人工智能代理的可扩展的真实计算环境

OS World是一个新的项目,旨在解决一致和彻底测试AI代理的挑战。它提供了一个强大的环境、多个操作系统,以及让代理与环境交互并衡量其性能的方式。

OS World的主要特点包括:

  1. 多模态代理环境:OS World作为一个统一的环境,用于评估涉及跨操作系统的任意应用程序和界面的开放式计算机任务。

  2. 观察模式:代理可以通过多种模式获得观察,包括辅助功能树、屏幕截图和一组标记(基于网格的屏幕表示)。

  3. 行动空间:代理可以执行一系列操作,如鼠标移动、点击、键盘输入和使用快捷键,与环境进行交互。

  4. 任务评估:OS World包括经过仔细注释的真实世界计算机任务,具有初始状态设置和自定义执行评估脚本,以评估代理的性能。

  5. 基准测试:该项目已用于对各种代理进行基准测试,包括Cog Agent、GPT-4和Gemini Pro Cloud 3,展示了基于辅助功能树和屏幕截图的观察模式的有效性。

  6. 开源:OS World项目,包括代码和数据,都是开源的,允许研究人员和开发人员访问并在此基础上进行构建。

通过提供一个标准化和可扩展的环境来测试AI代理,OS World旨在推进代理型AI领域的发展,并实现更强大和可靠的性能评估。

评估操作系统世界中的代理性能

OS World项目旨在提供一个强大和可扩展的环境,用于评估AI代理在执行真实世界计算机任务方面的性能。这个评估过程的关键方面包括:

  1. 任务形式化:将代理任务形式化为部分可观察马尔可夫决策过程(POMDP),定义状态空间、观察空间、行动空间、转移函数和奖励函数。

  2. 观察模态:代理可以通过多种模态获得观察,包括辅助功能树、屏幕截图和一组边界框坐标(标记)。这些提供了关于环境当前状态的不同级别的信息。

  3. 行动空间:代理可以执行一系列操作来与计算机环境交互,如鼠标移动、点击、键盘输入、滚动和使用快捷键。

  4. 任务执行评估:每个任务都经过仔细注释,包括真实世界的说明、初始状态设置和自定义评估脚本,用于检查任务是否成功完成。

  5. 基准任务:OS World项目包括369个涉及Web和桌面应用程序、文件操作和多应用程序工作流的真实世界计算机任务,为评估代理性能提供了一个全面的基准集。

论文中提供的结果表明,当提供辅助功能树或屏幕截图和辅助功能树的组合时,大型语言模型如GPT-4的表现最佳,优于其他输入模态,如仅屏幕截图或一组标记。这表明辅助功能树为代理在OS World环境中执行任务提供了最有价值的基础。

OS World项目代表了在评估AI代理在真实世界计算机环境中的能力方面取得的重大进步。通过提供一个标准化和开源的平台,它使研究人员和开发人员能够系统地评估和改进他们代理的性能,涵盖广泛的任务和场景。

结论

OS World项目是AI代理基准测试领域的一个重要进步。通过提供一个强大的开源环境,使代理能够与真实的计算系统和应用程序进行交互,它解决了当前AI评估中的一个关键缺口。

OS World项目的关键亮点包括:

  1. 多模态交互:该环境支持多种输入模态,包括屏幕截图、辅助功能树和一组标记,使代理能够以更自然和全面的方式感知和与计算机环境进行交互。

  2. 真实世界任务:该项目包括369个来自用户说明的真实世界计算机任务的多样化集合,涉及跨多个应用程序和操作系统的多步工作流程。

  3. 严格的评估:这些任务附有详细的初始状态配置和自定义评估脚本,实现了标准化和客观的代理性能评估。

  4. 开源可用性:整个项目,包括代码、数据和研究论文,都是公开可用的,促进了协作和该领域的进一步发展。

论文中提供的结果表明,大型语言模型(如GPT-4)有能力处理这些复杂的真实世界计算机任务,其中辅助功能树或屏幕截图和辅助功能树的组合提供了最有效的输入模态。

OS World项目代表了构建更强大和通用的AI代理的重要一步,这些代理能够无缝地与人类在日常数字任务中进行集成和协助。随着AI领域的不断发展,像这样的举措将对推动进步和确保代理在真实世界中的发展至关重要。

FAQ