Revolutionerande AI-agenter: Öppna datorstyrning med OS World

Revolutionera AI-agenter med OS World, ett nytt öppen källkod-projekt som tillhandahåller en robust miljö för att utvärdera och testa AI-agenter i verkliga datormiljöer. Lär dig hur denna genombrott möjliggör för agenter att utföra komplexa uppgifter genom att förankra instruktioner i konkreta åtgärder.

19 april 2025

Öppna framtiden för AI-agenter med OS World, ett banbrytande projekt som möjliggör sömlös kontroll av datorer över operativsystem. Upptäck hur denna öppna plattform revolutionerar sättet vi mäter och förbättrar AI-agenter, vilket ger dem kraft att hantera komplexa, verkliga uppgifter med precision och effektivitet.

Hur OS World möjliggör för AI-agenter att kontrollera datorer över operativsystem
Definiera intelligenta agenter och deras nyckelkomponenter
Utmaningarna med att kontrollera datorer för AI-agenter
OS World: En skalbar realistisk datormiljö för utvärdering av AI-agenter
Utvärdera agentprestanda i OS World
Slutsats

Hur OS World möjliggör för AI-agenter att kontrollera datorer över operativsystem

OS World är ett nytt projekt som syftar till att hantera utmaningen med att benchmarka och testa AI-agenter i riktiga datormiljöer. De viktigaste funktionerna i OS World inkluderar:

Enhetlig multimodal miljö: OS World tillhandahåller en enhetlig miljö för AI-agenter att operera över olika operativsystem, applikationer och gränssnitt, inklusive både grafiska användargränssnitt (GUI) och kommandoradsgränssnitt (CLI).
Observationsytor och åtgärdsytor: OS World definierar observationsytan, som inkluderar den aktuella skrivbordsmiljön, instruktioner, skärmbilder och tillgänglighetsträdstrukturer. Den definierar också åtgärdsytan, som inkluderar åtgärder som musrörelser, klick, tangentbordsintag och mer.
Utvärderingsmetoder: OS World inkluderar noggrant annoterade datoruppgifter i den verkliga världen, med initiala tillståndskonfigurationer och anpassade utvärderingsskript för att bedöma prestandan hos AI-agenter.
Tillgänglighet och förankring: OS World tillhandahåller tillgänglighetsinformation och förankring för att möjliggöra för AI-agenter att tolka och utföra instruktioner, vilket överbryggar begränsningarna i metoder som öppen tolk som förlitar sig på inexakta skärmbaserade interaktioner.
Öppen källkod och reproducerbarhet: OS World-projektet, inklusive forskningsartikeln, koden och data, är öppen källkod, vilket möjliggör reproducerbarhet och ytterligare utveckling av forskarsamfundet.

Definiera intelligenta agenter och deras nyckelkomponenter

En intelligent agent definieras som ett system som uppfattar sin miljö genom sensorer och agerar på den miljön genom effektorer, på ett rationellt sätt för att uppnå sina mål. De viktigaste komponenterna i en intelligent agent är:

Sensorer: Agentens sätt att uppfatta sin miljö, som kameror, mikrofoner eller andra inenheter.
Effektorer: Agentens sätt att agera på sin miljö, som motorer, högtalare eller andra utenheter.
Autonomi: Agentens förmåga att fungera utan direkt mänsklig kontroll.
Reaktivitet: Agentens förmåga att uppfatta och reagera på förändringar i sin miljö på ett tidsmässigt sätt.
Proaktivitet: Agentens förmåga att uppvisa målstyrt beteende genom att ta initiativ för att uppnå sina mål.
Social förmåga: Agentens förmåga att interagera med andra agenter eller människor i sin miljö.

Dessa komponenter gör att agenten kan uppfatta sin miljö, planera och utföra åtgärder, och lära av sina erfarenheter för att förbättra sin prestation över tid. Målet för en intelligent agent är att maximera sin prestation i att uppnå sina mål, samtidigt som den verkar inom ramarna för sin miljö.

Utmaningarna med att kontrollera datorer för AI-agenter

Att kontrollera datorer och utföra uppgifter i digitala miljöer har varit en betydande utmaning för AI-agenter. Presentationen belyser de viktigaste problemen:

Förankring av instruktioner i åtgärder: Att helt enkelt tillhandahålla stegvisa instruktioner räcker inte för att en AI-agent ska kunna utföra en uppgift framgångsrikt. Agenten måste kunna förankra dessa instruktioner i faktiska åtgärder som kan kontrollera datorns gränssnitt, oavsett om det är en mus, tangentbord eller andra inenheter.
Slutna och proprietära system: Operativsystem som macOS och Windows är slutna och proprietära, vilket gör det svårt för AI-agenter att exakt kontrollera datorns miljö. Befintliga metoder, som att använda tillgänglighetsfunktioner och skärmrutnät, är inexakta och ineffektiva.
Brist på återkoppling och iteration: Utan möjlighet att uppfatta miljön och få återkoppling kämpar AI-agenter med att generera exakta, flerstegiga planer för att utföra uppgifter. Bristen på interaktion med den verkliga miljön begränsar deras förmåga att lära och förbättra sig.
Komplexiteten i verkliga uppgifter: Många datoruppgifter i den verkliga världen involverar flera applikationer, gränssnitt och arbetsflöden. Att översätta högnivåinstruktioner till de nödvändiga åtgärderna för att slutföra dessa komplexa uppgifter är en betydande utmaning för nuvarande AI-agenter.

OS World: En skalbar realistisk datormiljö för utvärdering av AI-agenter

OS World är ett nytt projekt som syftar till att tillhandahålla en skalbar, riktig datormiljö som kan fungera som en enhetlig, multimodal agentmiljö för att utvärdera öppna datoruppgifter. Genom att erbjuda tillgång till olika operativsystem, applikationer och gränssnitt, tillsammans med detaljerade observationer och återkoppling, möjliggör OS World för AI-agenter att förankra sina instruktioner i exakta åtgärder och iterera över sin prestation.

Utvärdera agentprestanda i OS World

OS World är ett nytt projekt som syftar till att hantera utmaningen med att konsekvent och grundligt testa AI-agenter. Det tillhandahåller en robust miljö, flera operativsystem och ett sätt för agenter att interagera med miljön och mäta sin prestation.

De viktigaste funktionerna i OS World inkluderar:

Multimodal agentmiljö: OS World fungerar som en enhetlig miljö för att utvärdera öppna datoruppgifter som involverar godtyckliga appar och gränssnitt över operativsystem.
Observationslägen: Agenter kan ta emot observationer genom olika lägen, inklusive tillgänglighetsträdstrukturen, skärmbilder och en uppsättning markeringar (en rutnätsbaserad representation av skärmen).
Åtgärdsyta: Agenter kan utföra ett antal åtgärder, som musrörelser, klick, tangentbordsintag och använda genvägar, för att interagera med miljön.
Utvärdering av uppgifter: OS World inkluderar noggrant annoterade datoruppgifter i den verkliga världen, med initiala tillståndskonfigurationer och anpassade utvärderingsskript baserade på utförande för att bedöma agentens prestation.
Benchmarking: Projektet har använts för att benchmarka olika agenter, inklusive Cog Agent, GPT-4 och Gemini Pro Cloud 3, vilket visar på effektiviteten hos tillgänglighetsträdstrukturen och skärmbildsbaserade observationslägen.
Öppen källkod: OS World-projektet, inklusive koden och data, är öppen källkod, vilket gör att forskare och utvecklare kan komma åt och bygga vidare på plattformen.

Slutsats

OS World-projektet syftar till att tillhandahålla en robust och skalbar miljö för att utvärdera prestandan hos AI-agenter när de utför datoruppgifter i den verkliga världen. De viktigaste aspekterna av denna utvärderingsprocess är:

Uppgiftsformalisering: En agentuppgift formaliseras som en delvis observerbar Markovbeslutsprocess (POMDP), med ett definierat tillståndsutrymme, observationsutrymme, åtgärdsutrymme, övergångsfunktion och belöningsfunktion.
Observationsmodaliteter: Agenter kan ta emot observationer genom olika modaliteter, inklusive tillgänglighetsträdstrukturen, skärmbilder och en uppsättning begränsande rutor (markeringar). Dessa ger olika nivåer av information om den aktuella tillståndet i miljön.
Åtgärdsyta: Agenter kan utföra ett antal åtgärder för att interagera med datorns miljö, som musrörelser, klick, tangentbordsintag, rullning och användning av genvägar.
Utvärdering av uppgiftsutförande: Varje uppgift är noggrant annoterad med instruktioner från den verkliga världen, en initial tillståndskonfiguration och ett anpassat utvärderingsskript som kontrollerar om uppgiften slutfördes framgångsrikt.
Benchmark-uppgifter: OS World-projektet inkluderar 369 datoruppgifter från den verkliga världen som involverar webb- och skrivbordsapplikationer, filåtgärder och arbetsflöden med flera appar, vilket ger en omfattande uppsättning benchmark för att utvärdera agentprestanda.

OS World-projektet är ett betydande steg framåt inom utvecklingen av robusta och skalbara benchmark för att utvärdera förmågorna hos AI-agenter i datormiljöer i den verkliga världen. Genom att tillhandahålla en standardiserad och öppen källkodsmiljö möjliggör det för forskare och utvecklare att systematiskt bedöma och förbättra prestandan hos sina agenter över ett brett utbud av uppgifter och scenarier.

FAQ

Vad är OS World?

Hur fungerar OS World?

Hur utvärderas uppgiftsutföranden i OS World?

Vilka inmatningslägen stöder OS World?

Hur kan OS World användas för att förbättra agentprestanda?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder