AIエージェントの革命化:OSワールドでのコンピューター制御の解放

OSワールドは、AI エージェントを実際のコンピューター環境でベンチマークおよびテストできる堅牢な環境を提供する新しいオープンソースプロジェクトです。この画期的な取り組みにより、エージェントは具体的な行動に指示を具体化することで、複雑なタスクを実行できるようになります。

2025年4月4日

AIエージェントの未来を解き放つOS World。オペレーティングシステムを超えてコンピューターを簡単に操作できる画期的なプロジェクトです。このオープンソースプラットフォームが、AIエージェントの評価と改善を革新的に変革し、複雑な現実世界のタスクに高い精度と効率で取り組めるようにします。

オペレーティングシステムを横断するAIエージェントによるコンピューターの制御を可能にするOSワールド
知的エージェントとその主要コンポーネントの定義
AIエージェントによるコンピューターの制御の課題
AIエージェントのベンチマーキングのための現実世界のスケーラブルなコンピューター環境としてのOSワールド
OSワールドにおけるエージェントのパフォーマンス評価
結論

オペレーティングシステムを横断するAIエージェントによるコンピューターの制御を可能にするOSワールド

OSワールドは、AIエージェントの実際のコンピューター環境でのベンチマーキングとテストの課題に取り組むことを目的とする新しいプロジェクトです。OSワールドの主な特徴は以下の通りです:

統一されたマルチモーダル環境: OSワールドは、グラフィカルユーザーインターフェース(GUI)とコマンドラインインターフェース(CLI)を含む、さまざまなオペレーティングシステム、アプリケーション、インターフェースにわたってAIエージェントが操作できる統一された環境を提供します。
観察と行動の空間: OSワールドは、現在のデスクトップ環境、指示、スクリーンショット、アクセシビリティツリーを含む観察空間を定義します。また、マウス移動、クリック、キーボード入力などの行動空間も定義します。
評価メトリクス: OSワールドには、AIエージェントのパフォーマンスを評価するための、注意深く注釈付けされた実世界のコンピュータータスクと、初期状態の設定および custom 評価スクリプトが含まれています。
アクセシビリティと基盤: OSワールドは、不正確なスクリーンショットベースの対話に依存するオープンインタープリターのような手法の限界を克服するために、AIエージェントが指示を解釈し実行できるようにするアクセシビリティ情報と基盤を提供します。
オープンソースと再現性: OSワールドプロジェクト(研究論文、コード、データ)はオープンソースで、研究コミュニティによる再現性と継続的な発展を可能にします。

OSワールドの主な洞察は、AIエージェントが実世界のコンピュータータスクを実行するためには、高レベルのスクリーンショットではなく、基礎となるオペレーティングシステムとアプリケーションのインターフェースにアクセスする必要があるということです。この基盤を提供することで、OSワールドは、さまざまなコンピューティング環境で円滑に動作する、より高度で汎用的なAIエージェントの開発を促進することを目指しています。

知的エージェントとその主要コンポーネントの定義

知的エージェントは、センサーを通じて環境を知覚し、エフェクターを通じて合理的な方法で環境に働きかけ、目標を達成するシステムと定義されます。知的エージェントの主要な構成要素は以下の通りです:

センサー: カメラ、マイクロフォン、その他の入力デバイスなど、エージェントが環境を知覚する手段。
エフェクター: モーター、スピーカー、その他の出力デバイスなど、エージェントが環境に働きかける手段。
自律性: 直接的な人間の制御なしに動作する能力。
反応性: 環境の変化を適時に知覚し対応する能力。
主導性: 目的を達成するために主体的に行動する能力。
社会性: 環境内の他のエージェントや人間と相互作用する能力。

これらの要素により、エージェントは環境を知覚し、行動を計画・実行し、経験から学習して性能を向上させることができます。知的エージェントの目標は、環境の制約の下で、目的の達成に向けて最大限の性能を発揮することです。

AIエージェントによるコンピューターの制御の課題

コンピューターの制御とデジタル環境でのタスク実行は、AIエージェントにとって大きな課題です。この発表では、主な問題点が強調されています:

指示の行動への接地: 手順を詳細に指示するだけでは、AIエージェントがタスクを正常に実行するのは十分ではありません。エージェントは、マウス、キーボード、その他の入力方法を使ってコンピューターインターフェースを制御する実際の行動に、その指示を接地させる必要があります。
閉鎖的で独自のシステム: macOSやWindowsのようなオペレーティングシステムは閉鎖的で独自のため、AIエージェントがコンピューター環境を正確に制御するのが困難です。アクセシビリティ機能やスクリーンショットグリッドを使う既存のアプローチは、不正確で非効率的です。
フィードバックと反復の欠如: 環境を知覚し、フィードバックを受け取る能力がないため、AIエージェントは正確な多段階の実行計画を生成するのが困難です。実環境との相互作用の欠如により、学習と改善の能力が制限されます。
実世界タスクの複雑さ: 多くの実世界のコンピュータータスクには、複数のアプリケーション、インターフェース、ワークフローが関わります。高レベルの指示を、これらの複雑なタスクを完了するための必要な行動に翻訳するのは、現在のAIエージェントにとって大きな課題です。

これらの課題に対処するため、OSワールドプロジェクトは、オープンエンドのコンピュータータスクを評価するための統一されたマルチモーダルなエージェント環境として機能する、スケーラブルな実コンピューター環境を提供することを目指しています。さまざまなオペレーティングシステム、アプリケーション、インターフェースへのアクセスと、詳細な観察とフィードバックを提供することで、OSワールドはAIエージェントが指示を正確な行動に接地させ、パフォーマンスを改善できるようにします。

AIエージェントのベンチマーキングのための現実世界のスケーラブルなコンピューター環境としてのOSワールド

OSワールドは、AIエージェントを一貫して徹底的にテストするための新しいプロジェクトです。ロバストな環境、複数のオペレーティングシステム、エージェントが環境と対話し、パフォーマンスを測定する方法を提供します。

OSワールドの主な特徴は以下の通りです:

マルチモーダルなエージェント環境: OSワールドは、オペレーティングシステムを横断する任意のアプリとインターフェースを含む、オープンエンドのコンピュータータスクを評価するための統一された環境として機能します。
観察モード: エージェントは、アクセシビリティツリー、スクリーンショット、マーク(スクリーンの格子状表現)などの様々なモードから観察を受け取ることができます。
行動空間: エージェントは、マウス移動、クリック、キーボード入力、ホットキーの使用など、環境と対話するための幅広い行動を実行できます。
タスク評価: OSワールドには、初期状態の設定と custom 実行ベースの評価スクリプトを備えた、注意深く注釈付けされた実世界のコンピュータータスクが含まれています。
ベンチマーキング: このプロジェクトでは、アクセシビリティツリーとスクリーンショットベースの観察モードの有効性を示すため、Cog Agent、GPT-4、Gemini Pro Cloud 3などのエージェントがベンチマークされています。
オープンソース: OSワールドプロジェクト(コードとデータ)はオープンソースで、研究者や開発者がアクセスして拡張できます。

AIエージェントのテストのための標準化されたスケーラブルな環境を提供することで、OSワールドは、エージェントベースのAIの分野の進歩を促し、より堅牢で信頼性の高いパフォーマンス評価を可能にすることを目指しています。

OSワールドにおけるエージェントのパフォーマンス評価

OSワールドプロジェクトは、AIエージェントが実世界のコンピュータータスクを実行する際のパフォーマンスを評価するための堅牢でスケーラブルな環境を提供することを目的としています。この評価プロセスの主要な側面は以下の通りです:

タスクの形式化: エージェントタスクは部分観測マルコフ決定過程(POMDP)として定式化され、状態空間、観察空間、行動空間、遷移関数、報酬関数が定義されます。
観察モダリティ: エージェントは、アクセシビリティツリー、スクリーンショット、境界ボックスの座標(マーク)などの様々なモダリティから観察を受け取ることができます。これらは、環境の現在の状態に関する異なるレベルの情報を提供します。
行動空間: エージェントは、マウス移動、クリック、キーボード入力、スクロール、ホットキーの使用など、コンピューター環境と対話するための幅広い行動を実行できます。
タスク実行評価: 各タスクには、実世界の指示、初期状態の設定、タスクが正常に完了されたかどうかを確認する custom 評価スクリプトが注意深く注釈付けされています。
ベンチマークタスク: OSワールドプロジェクトには、Webアプリケーション、デスクトップアプリケーション、ファイル操作、マルチアプリワークフローを含む369の実世界のコンピュータータスクが含まれており、エージェントのパフォーマンス評価のための包括的なベンチマークを提供します。

論文で示された結果によると、GPT-4のような大規模言語モデルは、アクセシビリティツリーまたはスクリーンショットとアクセシビリティツリーの組み合わせを入力として提供された場合に最高のパフォーマンスを発揮し、スクリーンショットのみやマークのセットよりも優れていることが示されています。これは、アクセシビリティツリーが、OSワールド環境でタスクを実行するためのエージェントに最も有益な基盤を提供することを示唆しています。

OSワールドプロジェクトは、実世界のコンピューター環境でのAIエージェントの能力を評価するための堅牢でスケーラブルなベンチマークの開発において重要な一歩を示しています。標準化されたオープンソースのプラットフォームを提供することで、研究者や開発者が幅広いタスクやシナリオにわたってエージェントのパフォーマンスを体系的に評価し、改善することを可能にします。

結論

OSワールドプロジェクトは、AIエージェントのベンチマーキングの分野で重要な一歩を踏み出しています。実際のコンピューターシステムやアプリケーションと対話できるロバストでオープンソースの環境を提供することで、現在のAI評価の重要な欠陥に取り組んでいます。

OSワールドプロジェクトの主なハイライトは以下の通りです:

マルチモーダルな相互作用: この環境は、スクリーンショット、アクセシビリティツリー、マークのセットなど、さまざまな入力モダリティをサポートしており、エージェントがコンピューター環境をより自然で包括的に知覚し、相互作用できるようにします。
実世界タスク: プロジェクトには、さまざまなアプリケーションとオペレーティングシステムにわたる複数ステップのワークフローを含む、369の実世界のコンピュータータスクが注意深く選定されています。
厳格な評価: タスクには、詳細な初期状態の設定と custom 評価スクリプトが付属しており、エージェントのパフォーマンスの標準化された客観的な評価を可能にします。
オープンソースの利用可能性: コード、データ、研究論文を含む全プロジェクトがオープンに利用可能で、分野の協力と発展をさらに促進します。

論文で示された結果は、GPT-4のような大規模言語モデルが、アクセシビリティツリーまたはスクリーンショットとアクセシビリティツリーの組み合わせを最も効果的な入力モダリティとして、これらの複雑な実世界のコンピュータータスクに取り組む可能性を示しています。

OSワールドプロジェクトは、日常のデジタルタスクでの人間を支援できる、より高度で汎用的なAIエージェントの構築に向けて重要な一歩を示しています。AIの分野が進化し続ける中で、このようなイニシアチブは、確実な進歩

FAQ

OSワールドとは何ですか?

OSワールドはどのように機能しますか?

OSワールドでのタスク実行はどのように評価されますか?

OSワールドはどのような入力モードをサポートしますか?

OSワールドはどのようにエージェントのパフォーマンス向上に使用できますか?

AIガールフレンドを作成する

私たちのAIガールフレンドビルダーを使って理想のパートナーを作りましょう