Revolutionair AI-agenten: Ontgrendelen van computerbesturing met OS World

Revolutioneer AI-agenten met OS World, een nieuw open-source project dat een robuuste omgeving biedt om AI-agenten in echte computeromgevingen te benchmarken en testen. Leer hoe deze doorbraak agenten in staat stelt om complexe taken uit te voeren door instructies te verankeren in concrete acties.

17 februari 2025

Ontgrendel de toekomst van AI-agenten met OS World, een baanbrekend project dat naadloze besturing van computers over besturingssystemen heen mogelijk maakt. Ontdek hoe dit open-source platform de manier waarop we AI-agenten benchmarken en verbeteren, revolutioneert, waardoor ze in staat zijn om complexe, realistische taken met precisie en efficiëntie aan te pakken.

Hoe OS World AI-agenten in staat stelt computers te besturen over besturingssystemen heen
Intelligente agenten definiëren en hun belangrijkste componenten
De uitdagingen van het besturen van computers voor AI-agenten
OS World: Een schaalbaar real-world computeromgeving voor het benchmarken van AI-agenten
Evaluatie van agentprestaties in OS World
Conclusie

Hoe OS World AI-agenten in staat stelt computers te besturen over besturingssystemen heen

OS World is een nieuw project dat zich richt op het aanpakken van de uitdaging van het benchmarken en testen van AI-agenten in echte computeromgevingen. De belangrijkste kenmerken van OS World zijn:

Geünificeerde Multimodale Omgeving: OS World biedt een geünificeerde omgeving voor AI-agenten om te opereren in verschillende besturingssystemen, applicaties en interfaces, inclusief zowel grafische gebruikersinterfaces (GUI's) als command-line interfaces (CLI's).
Observatie- en Actiemogelijkheden: OS World definieert de observatieruimte, die de huidige desktopomgeving, instructies, schermafbeeldingen en toegankelijkheidsstructuren omvat. Het definieert ook de actiemogelijkheden, zoals muisbewegingen, klikken, toetsenbordinvoer en meer.
Evaluatiemaatstaven: OS World bevat zorgvuldig geannoteerde, echte computergestuurde taken, met initiële toestandsconfiguraties en aangepaste evaluatiescripts om de prestaties van AI-agenten te beoordelen.
Toegankelijkheid en Verankering: OS World biedt toegankelijkheidsinformatie en verankering om AI-agenten in staat te stellen instructies te interpreteren en uit te voeren, waardoor de beperkingen van benaderingen zoals open interpreter die afhankelijk zijn van onnauwkeurige schermafbeeldingsinteracties worden overwonnen.
Open-Source en Reproduceerbaar: Het OS World-project, inclusief het onderzoeksartikel, de code en de gegevens, is open-source, waardoor reproduceerbaarheid en verdere ontwikkeling door de onderzoeksgemeenschap mogelijk is.

Het belangrijkste inzicht achter OS World is dat om AI-agenten in staat te stellen echte computergestuurde taken uit te voeren, ze toegang moeten hebben tot het onderliggende besturingssysteem en applicatie-interfaces, niet alleen tot hoogwaardige schermafbeeldingen. Door deze verankering te bieden, streeft OS World ernaar de ontwikkeling van meer capabele en veelzijdige AI-agenten te faciliteren die naadloos kunnen opereren in verschillende computeromgevingen.

Intelligente agenten definiëren en hun belangrijkste componenten

Een intelligente agent wordt gedefinieerd als een systeem dat zijn omgeving waarneemt via sensoren en daarop reageert via effectoren, op een rationele manier om zijn doelen te bereiken. De belangrijkste componenten van een intelligente agent zijn:

Sensoren: De middelen van de agent om zijn omgeving waar te nemen, zoals camera's, microfoons of andere invoerapparaten.
Effectoren: De middelen van de agent om in te grijpen op zijn omgeving, zoals motoren, luidsprekers of andere uitvoerapparaten.
Autonomie: Het vermogen van de agent om zonder directe menselijke controle te opereren.
Reactiviteit: Het vermogen van de agent om veranderingen in zijn omgeving tijdig waar te nemen en daarop te reageren.
Proactiviteit: Het vermogen van de agent om doelgericht gedrag te vertonen door zelf initiatieven te nemen om zijn doelstellingen te bereiken.
Sociale Vaardigheden: Het vermogen van de agent om te interacteren met andere agenten of mensen in zijn omgeving.

Deze componenten stellen de agent in staat zijn omgeving waar te nemen, acties te plannen en uit te voeren, en te leren van zijn ervaringen om zijn prestaties in de loop van de tijd te verbeteren. Het doel van een intelligente agent is om zijn prestaties te maximaliseren bij het bereiken van zijn doelstellingen, binnen de beperkingen van zijn omgeving.

De uitdagingen van het besturen van computers voor AI-agenten

Het besturen van computers en het uitvoeren van taken in digitale omgevingen is een aanzienlijke uitdaging geweest voor AI-agenten. De presentatie belicht de belangrijkste problemen:

Verankeren van Instructies in Acties: Het simpelweg verstrekken van stapsgewijze instructies is niet voldoende voor een AI-agent om een taak succesvol uit te voeren. De agent moet in staat zijn om die instructies te verankeren in daadwerkelijke acties die de computerinterface kunnen besturen, of dat nu een muis, toetsenbord of andere invoermethoden zijn.
Gesloten en Eigendomsrechtelijke Systemen: Besturingssystemen zoals macOS en Windows zijn gesloten en eigendomsrechtelijk, waardoor het voor AI-agenten moeilijk is om de computeromgeving nauwkeurig te besturen. Bestaande benaderingen, zoals het gebruik van toegankelijkheidsfuncties en schermafbeeldingsrasters, zijn onnauwkeurig en inefficiënt.
Gebrek aan Feedback en Iteratie: Zonder het vermogen om de omgeving waar te nemen en feedback te ontvangen, worstelen AI-agenten om nauwkeurige, meerstapsplannen te genereren voor het uitvoeren van taken. Het gebrek aan interactie met de echte omgeving beperkt hun vermogen om te leren en te verbeteren.
Complexiteit van Echte Computertaken: Veel echte computergestuurde taken omvatten meerdere applicaties, interfaces en workflows. Het vertalen van hoogwaardige instructies in de noodzakelijke acties om deze complexe taken uit te voeren, is een aanzienlijke uitdaging voor de huidige AI-agenten.

Om deze uitdagingen aan te pakken, beoogt het OS World-project een schaalbare, echte computeromgeving te bieden die kan dienen als een geünificeerde, multimodale agentomgeving voor het evalueren van open-ended computergestuurde taken. Door toegang te bieden tot verschillende besturingssystemen, applicaties en interfaces, samen met gedetailleerde observaties en feedback, stelt OS World AI-agenten in staat om hun instructies te verankeren in precieze acties en hun prestaties te verbeteren.

OS World: Een schaalbaar real-world computeromgeving voor het benchmarken van AI-agenten

OS World is een nieuw project dat zich richt op het consistent en grondig testen van AI-agenten. Het biedt een robuuste omgeving, meerdere besturingssystemen en een manier voor agenten om met de omgeving te interacteren en hun prestaties te meten.

De belangrijkste kenmerken van OS World zijn:

Multimodale Agentomgeving: OS World fungeert als een geünificeerde omgeving voor het evalueren van open-ended computergestuurde taken die willekeurige apps en interfaces over besturingssystemen heen betreffen.
Observatiemodi: Agenten kunnen observaties ontvangen via verschillende modi, waaronder de toegankelijkheidsstructuur, schermafbeelding en een set markeringen (een rastergebaseerde weergave van het scherm).
Actiemogelijkheden: Agenten kunnen een reeks acties uitvoeren, zoals muisbewegingen, klikken, toetsenbordinvoer en het gebruik van sneltoetsen, om met de omgeving te interacteren.
Taakevaluatie: OS World bevat zorgvuldig geannoteerde, echte computergestuurde taken, met initiële toestandsinstellingen en aangepaste uitvoeringsgebaseerde evaluatiescripts om de prestaties van de agent te beoordelen.
Benchmarking: Het project is gebruikt om verschillende agenten te benchmarken, waaronder Cog Agent, GPT-4 en Gemini Pro Cloud 3, waarbij de effectiviteit van de toegankelijkheidsstructuur en schermafbeeldingsgebaseerde observatiemodi werd aangetoond.
Open-Source: Het OS World-project, inclusief de code en gegevens, is open-source, waardoor onderzoekers en ontwikkelaars toegang hebben en kunnen bouwen op het platform.

Door een gestandaardiseerde en schaalbare omgeving te bieden voor het testen van AI-agenten, streeft OS World ernaar de ontwikkeling van agent-gebaseerde AI te bevorderen en een robuustere en betrouwbaardere prestatiebeoordeling mogelijk te maken.

Evaluatie van agentprestaties in OS World

Het OS World-project beoogt een robuuste en schaalbare omgeving te bieden voor het evalueren van de prestaties van AI-agenten bij het uitvoeren van echte computergestuurde taken. De belangrijkste aspecten van dit evaluatieproces zijn:

Taakformalisatie: Een agententaak wordt geformaliseerd als een Partially Observable Markov Decision Process (POMDP), met een gedefinieerde toestandsruimte, observatieruimte, actiemogelijkheden, transitiefunctie en beloningsfunctie.
Observatiemodaliteiten: Agenten kunnen observaties ontvangen via verschillende modaliteiten, waaronder de toegankelijkheidsstructuur, schermafbeelding en een set begrenzingskaders (markeringen). Deze bieden verschillende niveaus van informatie over de huidige toestand van de omgeving.
Actiemogelijkheden: Agenten kunnen een reeks acties uitvoeren om te interacteren met de computeromgeving, zoals muisbewegingen, klikken, toetsenbordinvoer, scrollen en het gebruik van sneltoetsen.
Taakuitvoerings-evaluatie: Elke taak is zorgvuldig geannoteerd met echte instructies, een initiële toestandsinstelling en een aangepast evaluatiescript dat controleert of de taak succesvol is voltooid.
Benchmark-taken: Het OS World-project bevat 369 echte computergestuurde taken met betrekking tot web- en desktoptoepassingen, bestandsbewerkingen en multi-app workflows, waardoor een uitgebreide set benchmarks wordt geboden voor het evalueren van agentprestaties.

De in het artikel gepresenteerde resultaten tonen aan dat grote taalmodellen zoals GPT-4 het best presteren wanneer ze worden voorzien van de toegankelijkheidsstructuur of een combinatie van de schermafbeelding en toegankelijkheidsstructuur, waarbij ze andere invoermodaliteiten zoals alleen schermafbeelding of set van markeringen overtreffen. Dit suggereert dat de toegankelijkheidsstructuur de meest informatieve verankering biedt voor agenten om taken in de OS World-omgeving uit te voeren.

Het OS World-project vertegenwoordigt een belangrijke stap voorwaarts in de ontwikkeling van robuuste en schaalbare benchmarks voor het evalueren van de mogelijkheden van AI-agenten in echte computeromgevingen. Door een gestandaardiseerd en open-source platform te bieden, stelt het onderzoekers en ontwikkelaars in staat om systematisch de prestaties van hun agenten te beoordelen en te verbeteren over een breed scala aan taken en scenario's.

Conclusie

Het OS World-project is een belangrijke stap voorwaarts in het veld van AI-agent benchmarking. Door een robuuste, open-source omgeving te bieden waarin agenten kunnen interacteren met echte computersystemen en -applicaties, wordt een kritieke lacune in de huidige staat van AI-evaluatie aangepakt.

De belangrijkste hoogtepunten van het OS World-project zijn:

Multimodale Interactie: De omgeving ondersteunt een verscheidenheid aan invoermodaliteiten, waaronder schermafbeeldingen, toegankelijkheidsstructuren en een set markeringen, waardoor agenten de computeromgeving op een meer natuurlijke en alomvattende manier kunnen waarnemen en ermee kunnen interacteren.
Echte Computertaken: Het project bevat een diverse set van 369 echte computergestuurde taken, zorgvuldig samengesteld uit gebruikersinstructies, die meerstapsworkflows over verschillende applicaties en besturingssystemen omvatten.
Grondige Evaluatie: De taken gaan vergezeld van gedetailleerde initiële toestandsinstellingen en aangepaste evaluatiescripts, waardoor een gestandaardiseerde en objectieve beoordeling van agentprestaties mogelijk is.
Open-Source Beschikbaarheid: Het hele project, inclusief de code, gegevens en het onderzoeksartikel, is openbaar beschikbaar, wat samenwerking en verdere vooruitgang in het veld bevordert.

De in het artikel gepresenteerde resultaten tonen het potentieel van grote taalmodellen, zoals GPT-4, om deze complexe, echte computergestuurde taken aan te pakken, waarbij de toegankelijkheidsstructuur of een combinatie van schermafbeelding en toegankelijkheidsstructuur de meest effectieve invoermodaliteiten bieden.

Het OS World-project vertegenwoordigt een belangrijke stap in de richting van het bouwen van meer capabele en veelzijdige AI-agenten die naadloos kunnen integreren met en assisteren bij de dagelijkse digitale taken van mensen. Naarmate het veld van AI zich blijft ontwikkelen, zullen initiatieven als deze cruciaal zijn om vooruitgang te boeken en de ontwikkeling van agenten te garanderen die echt kunnen opereren in de echte wereld.

FAQ

Wat is OS World?

Hoe werkt OS World?

Hoe worden de taakuitvoeringen in OS World geëvalueerd?

Welke invoermodi ondersteunt OS World?

Hoe kan OS World worden gebruikt om de prestaties van agenten te verbeteren?

Creëer uw AI-vriendin

Bouw uw ideale metgezel met onze AI Girlfriend Builder