革命性的 AI 代理人:解鎖電腦控制與 OS 世界

以 OS World 這個新的開源專案革新 AI 代理人。它提供了一個強大的環境來評測和測試 AI 代理人在真實電腦環境中的表現。了解這項突破性的技術如何使代理人能夠執行複雜的任務,將指令轉化為具體的行動。

2025年2月20日

party-gif

使用 OS World 解鎖 AI 代理的未來,這是一個開創性的項目,可實現跨操作系統的電腦無縫控制。探索這個開源平台如何革新我們評估和改進 AI 代理的方式,使他們能夠以精確和高效的方式處理複雜的現實世界任務。

作業系統世界如何使 AI 代理人控制跨作業系統的電腦

「OS World」是一個新的專案,旨在解決在真實電腦環境中對 AI 代理進行基準測試和測試的挑戰。OS World 的主要特點包括:

  1. 統一的多模態環境: OS World 為 AI 代理提供了一個統一的環境,可以跨不同的操作系統、應用程式和介面(包括圖形使用者介面(GUI)和命令列介面(CLI))進行操作。

  2. 觀察和行動空間: OS World 定義了觀察空間,包括當前的桌面環境、指令、截圖和可訪問性樹。它還定義了行動空間,包括滑鼠移動、點擊、鍵盤輸入等操作。

  3. 評估指標: OS World 包含經過仔細註解的真實世界電腦任務,具有初始狀態配置和自定義評估腳本,以評估 AI 代理的性能。

  4. 可訪問性和基礎: OS World 提供可訪問性信息和基礎,使 AI 代理能夠解釋和執行指令,克服依賴於不精確的基於截圖的交互的方法的局限性。

  5. 開源和可重複性: OS World 專案,包括研究論文、代碼和數據,都是開源的,允許研究社區進行可重複性和進一步發展。

OS World 背後的關鍵洞見是,為了使 AI 代理能夠執行真實世界的電腦任務,他們需要訪問底層操作系統和應用程式介面,而不僅僅是高級別的截圖。通過提供這種基礎,OS World 旨在促進更強大和更通用的 AI 代理的發展,使其能夠在不同的計算環境中無縫運作。

定義智慧型代理人及其關鍵元件

智能代理被定義為一個通過傳感器感知其環境,並通過執行器以理性的方式對該環境採取行動以實現其目標的系統。智能代理的關鍵組成部分包括:

  1. 傳感器: 代理感知其環境的手段,如攝像頭、麥克風或其他輸入設備。

  2. 執行器: 代理對其環境採取行動的手段,如電機、揚聲器或其他輸出設備。

  3. 自主性: 代理在沒有直接人類控制的情況下運作的能力。

  4. 反應性: 代理及時感知和響應其環境變化的能力。

  5. 主動性: 代理通過主動採取行動來實現其目標的能力。

  6. 社交能力: 代理與其環境中的其他代理或人類互動的能力。

這些組成部分使代理能夠感知其環境、規劃和執行行動,並從經驗中學習以提高其性能。智能代理的目標是在其環境的約束下,最大化其實現目標的性能。

AI 代理人控制電腦的挑戰

控制電腦和在數字環境中執行任務一直是 AI 代理面臨的一個重大挑戰。本文強調了關鍵問題:

  1. 將指令轉化為行動: 單純提供分步指令並不足以使 AI 代理成功執行任務。代理需要能夠將這些指令轉化為實際的行動,以控制電腦介面,無論是滑鼠、鍵盤還是其他輸入方式。

  2. 封閉和專有系統: macOS 和 Windows 等操作系統是封閉和專有的,這使 AI 代理很難精確控制電腦環境。現有的方法,如使用可訪問性功能和截圖網格,都不精確和效率低下。

  3. 缺乏反饋和迭代: 如果無法感知環境並獲得反饋,AI 代理就難以生成準確的多步驟計劃來執行任務。缺乏與真實環境的交互限制了他們的學習和改進能力。

  4. 真實世界任務的複雜性: 許多真實世界的電腦任務涉及多個應用程式、介面和工作流程。將高級指令轉化為完成這些複雜任務所需的行動是當前 AI 代理面臨的重大挑戰。

為了解決這些挑戰,OS World 專案旨在提供一個可擴展的真實電腦環境,作為評估開放式電腦任務的統一多模態代理環境。通過提供對各種操作系統、應用程式和介面的訪問,以及詳細的觀察和反饋,OS World 使 AI 代理能夠將指令轉化為精確的行動,並對其性能進行迭代改進。

作業系統世界:用於評估 AI 代理人的可擴展實際電腦環境

OS World 是一個新的專案,旨在解決一致和徹底測試 AI 代理的挑戰。它提供了一個強大的環境、多個操作系統,以及讓代理與環境互動並衡量其性能的方式。

OS World 的主要特點包括:

  1. 多模態代理環境: OS World 作為一個統一的環境,用於評估涉及跨操作系統的任意應用程式和介面的開放式電腦任務。

  2. 觀察模式: 代理可以通過多種模式獲得觀察,包括可訪問性樹、截圖和一組標記(基於網格的屏幕表示)。

  3. 行動空間: 代理可以執行一系列行動,如滑鼠移動、點擊、鍵盤輸入和使用熱鍵,與環境互動。

  4. 任務評估: OS World 包含經過仔細註解的真實世界電腦任務,具有初始狀態設置和自定義執行評估腳本,以評估代理的性能。

  5. 基準測試: 該專案已用於對各種代理進行基準測試,包括 Cog Agent、GPT-4 和 Gemini Pro Cloud 3,展示了基於可訪問性樹和截圖的觀察模式的有效性。

  6. 開源: OS World 專案,包括代碼和數據,都是開源的,允許研究人員和開發人員訪問並在此基礎上進行構建。

通過提供一個標準化和可擴展的環境來測試 AI 代理,OS World 旨在推進代理型 AI 領域,並實現更強大和可靠的性能評估。

評估 OS World 中的代理人表現

OS World 專案旨在提供一個強大和可擴展的環境,用於評估 AI 代理在執行真實世界電腦任務方面的性能。這個評估過程的關鍵方面包括:

  1. 任務形式化: 代理任務被形式化為部分可觀察馬爾可夫決策過程(POMDP),具有定義的狀態空間、觀察空間、行動空間、轉移函數和獎勵函數。

  2. 觀察模態: 代理可以通過多種模態獲得觀察,包括可訪問性樹、截圖和一組邊界框坐標(標記)。這些提供了關於環境當前狀態的不同級別的信息。

  3. 行動空間: 代理可以執行一系列行動來與電腦環境互動,如滑鼠移動、點擊、鍵盤輸入、滾動和使用熱鍵。

  4. 任務執行評估: 每個任務都經過仔細註解,包含真實世界的指令、初始狀態設置和自定義評估腳本,以檢查任務是否成功完成。

  5. 基準任務: OS World 專案包括 369 個涉及網絡和桌面應用程式、文件操作和多應用工作流的真實世界電腦任務,為評估代理性能提供了全面的基準。

論文中提供的結果表明,當提供可訪問性樹或截圖和可訪問性樹的組合時,大型語言模型如 GPT-4 的表現最佳,優於其他輸入模態,如僅截圖或一組標記。這表明可訪問性樹為代理在 OS World 環境中執行任務提供了最有價值的基礎。

OS World 專案代表了在評估 AI 代理在真實世界電腦環境中的能力方面的重大進步。通過提供一個標準化和開源的平台,它使研究人員和開發人員能夠系統地評估和改進他們代理在各種任務和情景中的性能。

結論

OS World 專案是 AI 代理基準測試領域的一個重要進步。通過提供一個強大的開源環境,使代理能夠與真實的電腦系統和應用程式進行交互,它解決了當前 AI 評估中的一個關鍵缺口。

OS World 專案的關鍵亮點包括:

  1. 多模態交互: 該環境支持多種輸入模態,包括截圖、可訪問性樹和一組標記,使代理能夠以更自然和全面的方式感知和與電腦環境互動。

  2. 真實世界任務: 該專案包括 369 個來自用戶指令的真實世界電腦任務的多樣化集合,涉及跨多個應用程式和操作系統的多步工作流程。

  3. 嚴格的評估: 這些任務附有詳細的初始狀態配置和自定義評估腳本,實現了標準化和客觀的代理性能評估。

  4. 開源可用性: 整個專案,包括代碼、數據和研究論文,都是公開可用的,促進了協作和該領域的進一步發展。

論文中提供的結果表明,大型語言模型(如 GPT-4)有能力處理這些複雜的真實世界電腦任務,其中可訪問性樹或截圖和可訪問性樹的組合提供了最有效的輸入模態。

OS World 專案代表了構建更強大和通用的 AI 代理的重要一步,使其能夠無縫地與人類在日常數字任務中進行集成和協作。隨著 AI 領域的不斷發展,像這樣的舉措將對推動進步和確保代理能夠真正在現實世界中運作至關重要。

常問問題