AI 에이전트 혁명: OS 세계로 컴퓨터 제어 열기
OS World이라는 새로운 오픈 소스 프로젝트를 통해 AI 에이전트를 혁신하세요. 이 프로젝트는 실제 컴퓨터 환경에서 AI 에이전트를 벤치마크하고 테스트할 수 있는 강력한 환경을 제공합니다. 이 혁신적인 기술을 통해 에이전트가 지침을 구체적인 행동으로 실행할 수 있는 방법을 알아보세요.
2025년 2월 22일

AI 에이전트의 미래를 열어 OS World와 함께 하세요. 이 혁신적인 프로젝트는 운영 체제를 넘나드는 컴퓨터 제어를 가능하게 합니다. 이 오픈 소스 플랫폼이 AI 에이전트의 벤치마킹과 개선을 혁신적으로 변화시켜, 복잡한 실제 세계의 과제를 정밀하고 효율적으로 해결할 수 있게 해주는 방법을 발견하세요.
운영 체제 세계가 AI 에이전트가 운영 체제 전반에 걸쳐 컴퓨터를 제어할 수 있게 하는 방법
지능형 에이전트와 주요 구성 요소 정의
AI 에이전트가 컴퓨터를 제어하는 과제
OS World: AI 에이전트 벤치마킹을 위한 확장 가능한 실제 컴퓨터 환경
OS World에서 에이전트 성능 평가
결론
운영 체제 세계가 AI 에이전트가 운영 체제 전반에 걸쳐 컴퓨터를 제어할 수 있게 하는 방법
운영 체제 세계가 AI 에이전트가 운영 체제 전반에 걸쳐 컴퓨터를 제어할 수 있게 하는 방법
OS World은 실제 컴퓨터 환경에서 AI 에이전트의 벤치마킹과 테스트 과제를 해결하는 것을 목표로 하는 새로운 프로젝트입니다. OS World의 주요 특징은 다음과 같습니다:
-
통합 멀티모달 환경: OS World는 그래픽 사용자 인터페이스(GUI)와 명령줄 인터페이스(CLI)를 포함하여 다양한 운영 체제, 애플리케이션 및 인터페이스에서 AI 에이전트가 작동할 수 있는 통합 환경을 제공합니다.
-
관찰 및 행동 공간: OS World는 현재 데스크톱 환경, 지침, 스크린샷 및 접근성 트리를 포함하는 관찰 공간을 정의합니다. 또한 마우스 움직임, 클릭, 키보드 입력 등의 행동 공간을 정의합니다.
-
평가 지표: OS World에는 초기 상태 구성 및 맞춤형 평가 스크립트가 포함된 주석이 달린 실제 컴퓨터 작업이 포함되어 있어 AI 에이전트의 성능을 평가할 수 있습니다.
-
접근성 및 기반: OS World는 AI 에이전트가 지침을 해석하고 실행할 수 있도록 접근성 정보와 기반을 제공하여 부정확한 스크린샷 기반 상호 작용에 의존하는 접근 방식의 한계를 극복합니다.
-
오픈 소스 및 재현 가능성: OS World 프로젝트(연구 논문, 코드 및 데이터 포함)는 오픈 소스로 제공되어 연구 커뮤니티에서 재현성과 추가 개발이 가능합니다.
OS World의 핵심 통찰은 AI 에이전트가 실제 세계의 컴퓨터 작업을 수행하려면 단순한 고수준 스크린샷이 아닌 기본 운영 체제와 애플리케이션 인터페이스에 대한 접근이 필요하다는 것입니다. 이러한 기반을 제공함으로써 OS World는 다양한 컴퓨팅 환경에서 seamlessly 작동할 수 있는 더 강력하고 다재다능한 AI 에이전트 개발을 촉진하는 것을 목표로 합니다.
지능형 에이전트와 주요 구성 요소 정의
지능형 에이전트와 주요 구성 요소 정의
지능형 에이전트는 센서를 통해 환경을 인식하고 구동기를 통해 합리적인 방식으로 환경에 작용하여 목표를 달성하는 시스템으로 정의됩니다. 지능형 에이전트의 핵심 구성 요소는 다음과 같습니다:
-
센서: 카메라, 마이크 또는 기타 입력 장치와 같이 환경을 인식하는 에이전트의 수단.
-
구동기: 모터, 스피커 또는 기타 출력 장치와 같이 환경에 작용하는 에이전트의 수단.
-
자율성: 직접적인 인간 통제 없이 작동할 수 있는 에이전트의 능력.
-
반응성: 환경의 변화를 적시에 인식하고 대응할 수 있는 에이전트의 능력.
-
주도성: 목표를 달성하기 위해 주도적으로 행동하는 에이전트의 능력.
-
사회적 능력: 환경 내의 다른 에이전트 또는 인간과 상호 작용할 수 있는 에이전트의 능력.
이러한 구성 요소를 통해 에이전트는 환경을 인식하고, 행동을 계획 및 실행하며, 경험을 통해 학습하여 성능을 향상시킬 수 있습니다. 지능형 에이전트의 목표는 환경의 제약 내에서 목표 달성을 최대화하는 것입니다.
AI 에이전트가 컴퓨터를 제어하는 과제
AI 에이전트가 컴퓨터를 제어하는 과제
컴퓨터 제어 및 디지털 환경에서의 작업 실행은 AI 에이전트에게 중요한 과제였습니다. 이 프레젠테이션은 다음과 같은 핵심 문제를 강조합니다:
-
지침을 행동으로 구체화하기: 단순히 단계별 지침을 제공하는 것만으로는 AI 에이전트가 작업을 성공적으로 실행할 수 없습니다. 에이전트는 마우스, 키보드 또는 기타 입력 방식을 통해 컴퓨터 인터페이스를 제어할 수 있는 실제 행동으로 그러한 지침을 구체화할 수 있어야 합니다.
-
폐쇄적이고 독점적인 시스템: macOS와 Windows와 같은 운영 체제는 폐쇄적이고 독점적이어서 AI 에이전트가 컴퓨터 환경을 정확하게 제어하기 어렵습니다. 기존 접근 방식, 즉 접근성 기능과 스크린샷 그리드를 사용하는 방식은 부정확하고 비효율적입니다.
-
피드백과 반복의 부족: 환경을 인식하고 피드백을 받을 수 있는 능력이 없어 AI 에이전트는 작업을 실행하기 위한 정확한 다단계 계획을 생성하는 데 어려움을 겪습니다. 실제 환경과의 상호 작용 부족은 학습과 개선 능력을 제한합니다.
-
실제 작업의 복잡성: 많은 실제 컴퓨터 작업에는 여러 애플리케이션, 인터페이스 및 워크플로가 포함됩니다. 이러한 복잡한 작업을 완료하기 위해 고수준 지침을 필요한 행동으로 번역하는 것은 현재 AI 에이전트에게 큰 과제입니다.
OS World 프로젝트는 이러한 과제를 해결하기 위해 확장 가능한 실제 컴퓨터 환경을 제공하여 개방형 컴퓨터 작업 평가를 위한 통합 멀티모달 에이전트 환경으로 활용하고자 합니다. 다양한 운영 체제, 애플리케이션 및 인터페이스에 대한 접근과 자세한 관찰 및 피드백을 제공함으로써 OS World는 AI 에이전트가 지침을 정확한 행동으로 구체화하고 성능을 개선할 수 있도록 합니다.
OS World: AI 에이전트 벤치마킹을 위한 확장 가능한 실제 컴퓨터 환경
OS World: AI 에이전트 벤치마킹을 위한 확장 가능한 실제 컴퓨터 환경
OS World는 AI 에이전트를 일관되고 철저하게 테스트하는 과제를 해결하기 위한 새로운 프로젝트입니다. 이는 강력한 환경, 다양한 운영 체제 및 에이전트가 환경과 상호 작용하고 성능을 측정할 수 있는 방법을 제공합니다.
OS World의 주요 특징은 다음과 같습니다:
-
멀티모달 에이전트 환경: OS World는 운영 체제에 걸쳐 임의의 앱과 인터페이스를 포함하는 개방형 컴퓨터 작업을 평가하기 위한 통합 환경으로 활용됩니다.
-
관찰 모드: 에이전트는 접근성 트리, 스크린샷 및 마크 집합(화면의 격자 기반 표현)을 통해 관찰을 받을 수 있습니다.
-
행동 공간: 에이전트는 마우스 움직임, 클릭, 키보드 입력 및 단축키 사용과 같은 다양한 행동을 수행하여 환경과 상호 작용할 수 있습니다.
-
작업 평가: OS World에는 초기 상태 설정과 맞춤형 실행 기반 평가 스크립트가 포함된 주석이 달린 실제 컴퓨터 작업이 포함되어 있어 에이전트의 성능을 평가할 수 있습니다.
-
벤치마킹: 이 프로젝트는 Cog Agent, GPT-4 및 Gemini Pro Cloud 3와 같은 다양한 에이전트를 벤치마킹하는 데 사용되었으며, 접근성 트리 및 스크린샷 기반 관찰 모드의 효과를 입증했습니다.
-
오픈 소스: OS World 프로젝트(코드 및 데이터 포함)는 오픈 소스로 제공되어 연구자와 개발자가 액세스하고 플랫폼을 기반으로 구축할 수 있습니다.
OS World는 AI 에이전트 테스트를 위한 표준화되고 확장 가능한 환경을 제공함으로써 에이전트 기반 AI 분야의 발전과 더 강력하고 신뢰할 수 있는 성능 평가를 가능하게 하는 것을 목표로 합니다.
OS World에서 에이전트 성능 평가
OS World에서 에이전트 성능 평가
OS World 프로젝트는 AI 에이전트가 실제 컴퓨터 작업을 실행하는 성능을 평가하기 위한 강력하고 확장 가능한 환경을 제공하는 것을 목표로 합니다. 이 평가 프로세스의 핵심 측면은 다음과 같습니다:
-
작업 형식화: 에이전트 작업은 정의된 상태 공간, 관찰 공간, 행동 공간, 전이 함수 및 보상 함수를 가진 부분적 관찰 마르코프 의사 결정 프로세스(POMDP)로 형식화됩니다.
-
관찰 모드: 에이전트는 접근성 트리, 스크린샷 및 경계 상자 좌표(마크) 집합과 같은 다양한 모드를 통해 관찰을 받을 수 있습니다. 이를 통해 환경의 현재 상태에 대한 다양한 수준의 정보를 제공합니다.
-
행동 공간: 에이전트는 마우스 움직임, 클릭, 키보드 입력, 스크롤링 및 단축키 사용과 같은 다양한 행동을 수행하여 컴퓨터 환경과 상호 작용할 수 있습니다.
-
작업 실행 평가: 각 작업은 실제 지침, 초기 상태 설정 및 작업이 성공적으로 완료되었는지 확인하는 맞춤형 평가 스크립트로 주석이 달려 있습니다.
-
벤치마크 작업: OS World 프로젝트에는 웹 및 데스크톱 애플리케이션, 파일 작업 및 다중 앱 워크플로를 포함하는 369개의 실제 컴퓨터 작업이 포함되어 있어 에이전트 성능을 종합적으로 평가할 수 있는 벤치마크를 제공합니다.
논문에 제시된 결과에 따르면 GPT-4와 같은 대규모 언어 모델이 접근성 트리 또는 스크린샷과 접근성 트리의 조합을 제공받을 때 가장 좋은 성능을 보였으며, 스크린샷 단독 또는 마크 집합보다 우수한 것으로 나타났습니다. 이는 접근성 트리가 OS World 환경에서 작업을 실행하는 에이전트에게 가장 유용한 기반을 제공한다는 것을 시사합니다.
OS World 프로젝트는 실제 컴퓨터 환경에서 AI 에이전트의 기능을 체계적으로 평가하기 위한 강력하고 확장 가능한 벤치마크 개발에 있어 중요한 진전을 나타냅니다. 표준화되고 오픈 소스인 플랫폼을 제공함으로써 연구자와 개발자가 다양한 작업과 시나리오에 걸쳐 에이전트의 성능을 체계적으로 평가하고 개선할 수 있게
자주하는 질문
자주하는 질문