Revolutionierung von KI-Agenten: Erschließung der Computersteuerung mit der OS-Welt

Revolutionieren Sie KI-Agenten mit OS World, einem neuen Open-Source-Projekt, das eine robuste Umgebung zum Benchmarking und Testen von KI-Agenten in realen Computerumgebungen bietet. Erfahren Sie, wie dieser Durchbruch Agenten in die Lage versetzt, komplexe Aufgaben durch Verankerung von Anweisungen in konkreten Handlungen auszuführen.

14. Februar 2025

party-gif

Erschließen Sie die Zukunft von KI-Agenten mit OS World, einem bahnbrechenden Projekt, das eine nahtlose Steuerung von Computern über Betriebssysteme hinweg ermöglicht. Entdecken Sie, wie diese Open-Source-Plattform die Art und Weise, wie wir KI-Agenten testen und verbessern, revolutioniert und sie in die Lage versetzt, komplexe, reale Aufgaben mit Präzision und Effizienz zu bewältigen.

Wie OS World KI-Agenten in die Lage versetzt, Computer über Betriebssysteme hinweg zu steuern

OS World ist ein neues Projekt, das darauf abzielt, die Herausforderung des Benchmarkings und Testens von KI-Agenten in realen Computerumgebungen anzugehen. Die Schlüsselmerkmale von OS World umfassen:

  1. Vereinheitlichte Multimodale Umgebung: OS World bietet eine einheitliche Umgebung für KI-Agenten, um über verschiedene Betriebssysteme, Anwendungen und Schnittstellen, einschließlich grafischer Benutzeroberflächen (GUIs) und Befehlszeilenschnittstellen (CLIs), zu operieren.

  2. Beobachtungs- und Aktionsräume: OS World definiert den Beobachtungsraum, der die aktuelle Desktopumgebung, Anleitungen, Screenshots und Barrierefreiheitsbäume umfasst. Es definiert auch den Aktionsraum, der Aktionen wie Mausbewegungen, Klicks, Tastatureingaben und mehr beinhaltet.

  3. Bewertungsmetriken: OS World umfasst sorgfältig annotierte, reale Computeraufgaben mit Anfangszustandskonfigurationen und benutzerdefinierten Bewertungsskripten, um die Leistung von KI-Agenten zu beurteilen.

  4. Barrierefreiheit und Verankerung: OS World bietet Barrierefreiheitsinformationen und Verankerung, um KI-Agenten die Interpretation und Ausführung von Anweisungen zu ermöglichen und die Einschränkungen von Ansätzen wie offenen Interpretern zu überwinden, die sich auf ungenaue, auf Screenshots basierende Interaktionen verlassen.

  5. Open-Source und Reproduzierbarkeit: Das OS World-Projekt, einschließlich des Forschungspapiers, des Codes und der Daten, ist Open-Source, was Reproduzierbarkeit und weitere Entwicklung durch die Forschungsgemeinschaft ermöglicht.

Die Schlüsselerkenntnisse hinter OS World sind, dass KI-Agenten, um reale Computeraufgaben ausführen zu können, Zugriff auf das zugrunde liegende Betriebssystem und die Anwendungsschnittstellen benötigen, nicht nur auf hochrangige Screenshots. Durch die Bereitstellung dieser Verankerung zielt OS World darauf ab, die Entwicklung leistungsfähigerer und vielseitigerer KI-Agenten zu fördern, die nahtlos in verschiedenen Computerumgebungen operieren können.

Definition intelligenter Agenten und ihrer Schlüsselkomponenten

Ein intelligenter Agent wird als ein System definiert, das seine Umgebung durch Sensoren wahrnimmt und in rationaler Weise durch Effektoren auf diese Umgebung einwirkt, um seine Ziele zu erreichen. Die Schlüsselkomponenten eines intelligenten Agenten sind:

  1. Sensoren: Die Mittel des Agenten, seine Umgebung wahrzunehmen, wie Kameras, Mikrofone oder andere Eingabegeräte.

  2. Effektoren: Die Mittel des Agenten, auf seine Umgebung einzuwirken, wie Motoren, Lautsprecher oder andere Ausgabegeräte.

  3. Autonomie: Die Fähigkeit des Agenten, ohne direkte menschliche Kontrolle zu operieren.

  4. Reaktivität: Die Fähigkeit des Agenten, Veränderungen in seiner Umgebung rechtzeitig wahrzunehmen und darauf zu reagieren.

  5. Proaktivität: Die Fähigkeit des Agenten, zielgerichtetes Verhalten zu zeigen, indem er die Initiative ergreift, um seine Ziele zu erreichen.

  6. Soziale Fähigkeit: Die Fähigkeit des Agenten, mit anderen Agenten oder Menschen in seiner Umgebung zu interagieren.

Diese Komponenten ermöglichen es dem Agenten, seine Umgebung wahrzunehmen, Aktionen zu planen und auszuführen sowie aus seinen Erfahrungen zu lernen, um seine Leistung im Laufe der Zeit zu verbessern. Das Ziel eines intelligenten Agenten ist es, seine Leistung bei der Erreichung seiner Ziele zu maximieren, während er gleichzeitig den Beschränkungen seiner Umgebung Rechnung trägt.

Die Herausforderungen der Computersteuerung für KI-Agenten

Die Steuerung von Computern und die Ausführung von Aufgaben in digitalen Umgebungen stellen eine erhebliche Herausforderung für KI-Agenten dar. Die Präsentation hebt die Schlüsselprobleme hervor:

  1. Verankerung von Anweisungen in Aktionen: Das bloße Bereitstellen von Schritt-für-Schritt-Anweisungen reicht nicht aus, damit ein KI-Agent eine Aufgabe erfolgreich ausführen kann. Der Agent muss in der Lage sein, diese Anweisungen in tatsächliche Aktionen zu übersetzen, mit denen er die Computerschnittstelle steuern kann, sei es Maus, Tastatur oder andere Eingabemethoden.

  2. Geschlossene und proprietäre Systeme: Betriebssysteme wie macOS und Windows sind geschlossen und proprietär, was es für KI-Agenten schwierig macht, die Computerumgebung präzise zu steuern. Bestehende Ansätze wie die Verwendung von Barrierefreiheitsmerkmalen und Screenshot-Rastern sind ungenau und ineffizient.

  3. Mangel an Feedback und Iteration: Ohne die Fähigkeit, die Umgebung wahrzunehmen und Feedback zu erhalten, haben KI-Agenten Schwierigkeiten, genaue, mehrstufige Pläne für die Ausführung von Aufgaben zu generieren. Der fehlende Kontakt mit der realen Umgebung schränkt ihre Fähigkeit zum Lernen und zur Verbesserung ein.

  4. Komplexität realer Computeraufgaben: Viele reale Computeraufgaben umfassen mehrere Anwendungen, Schnittstellen und Arbeitsabläufe. Die Übersetzung von Hochlevel-Anweisungen in die erforderlichen Aktionen zur Bewältigung dieser komplexen Aufgaben stellt eine erhebliche Herausforderung für aktuelle KI-Agenten dar.

Um diese Herausforderungen anzugehen, zielt das OS World-Projekt darauf ab, eine skalierbare, reale Computerumgebung bereitzustellen, die als einheitliche, multimodale Agentenumgebung für die Bewertung offener Computeraufgaben dienen kann. Durch den Zugang zu verschiedenen Betriebssystemen, Anwendungen und Schnittstellen sowie detaillierten Beobachtungen und Rückmeldungen ermöglicht OS World KI-Agenten, ihre Anweisungen in präzise Aktionen zu übersetzen und ihre Leistung zu verbessern.

OS World: Eine skalierbare Computerumgebung der realen Welt für das Benchmarking von KI-Agenten

OS World ist ein neues Projekt, das darauf abzielt, die Herausforderung des konsistenten und gründlichen Testens von KI-Agenten anzugehen. Es bietet eine robuste Umgebung, mehrere Betriebssysteme und eine Möglichkeit für Agenten, mit der Umgebung zu interagieren und ihre Leistung zu messen.

Die Schlüsselmerkmale von OS World umfassen:

  1. Multimodale Agentenumgebung: OS World dient als einheitliche Umgebung zur Bewertung offener Computeraufgaben, die beliebige Apps und Schnittstellen über Betriebssysteme hinweg umfassen.

  2. Beobachtungsmodi: Agenten können Beobachtungen über verschiedene Modi erhalten, einschließlich des Barrierefreiheitsbaums, Screenshots und einer Reihe von Markierungen (eine rasterbasierte Darstellung des Bildschirms).

  3. Aktionsraum: Agenten können eine Reihe von Aktionen wie Mausbewegungen, Klicks, Tastatureingaben und die Verwendung von Tastenkombinationen ausführen, um mit der Umgebung zu interagieren.

  4. Aufgabenbewertung: OS World umfasst sorgfältig annotierte, reale Computeraufgaben mit Anfangszustandskonfigurationen und benutzerdefinierten Ausführungsskripten zur Bewertung der Agenten-Leistung.

  5. Benchmarking: Das Projekt wurde verwendet, um verschiedene Agenten, einschließlich Cog Agent, GPT-4 und Gemini Pro Cloud 3, zu benchmarken und die Effektivität der Beobachtungsmodi des Barrierefreiheitsbaums und der Screenshots zu demonstrieren.

  6. Open-Source: Das OS World-Projekt, einschließlich des Codes und der Daten, ist Open-Source, was Forschern und Entwicklern den Zugriff und den Aufbau auf der Plattform ermöglicht.

Indem es eine standardisierte und skalierbare Umgebung für das Testen von KI-Agenten bereitstellt, zielt OS World darauf ab, das Feld der agenten-basierten KI voranzubringen und eine robustere und zuverlässigere Leistungsbewertung zu ermöglichen.

Bewertung der Agenten-Leistung in OS World

Das OS World-Projekt zielt darauf ab, eine robuste und skalierbare Umgebung für die Bewertung der Leistung von KI-Agenten bei der Ausführung realer Computeraufgaben bereitzustellen. Die Schlüsselaspekte dieses Bewertungsprozesses sind:

  1. Aufgabenformalisierung: Eine Agenten-Aufgabe wird als Partially Observable Markov Decision Process (POMDP) formalisiert, mit einem definierten Zustandsraum, Beobachtungsraum, Aktionsraum, Übergangsfunktion und Belohnungsfunktion.

  2. Beobachtungsmodalitäten: Agenten können Beobachtungen über verschiedene Modalitäten erhalten, einschließlich des Barrierefreiheitsbaums, Screenshots und einer Reihe von Begrenzungsrahmenkoordinaten (Markierungen). Diese bieten unterschiedliche Informationsebenen über den aktuellen Zustand der Umgebung.

  3. Aktionsraum: Agenten können eine Reihe von Aktionen ausführen, um mit der Computerumgebung zu interagieren, wie Mausbewegungen, Klicks, Tastatureingaben, Scrollen und die Verwendung von Tastenkombinationen.

  4. Aufgabenausführungsbewertung: Jede Aufgabe ist sorgfältig mit realen Anweisungen, einer Anfangszustandskonfiguration und einem benutzerdefinierten Bewertungsskript annotiert, das überprüft, ob die Aufgabe erfolgreich abgeschlossen wurde.

  5. Benchmark-Aufgaben: Das OS World-Projekt umfasst 369 reale Computeraufgaben, die Web- und Desktop-Anwendungen, Dateioperationen und Multi-App-Workflows beinhalten, und bietet damit einen umfassenden Satz von Benchmarks zur Bewertung der Agenten-Leistung.

Die in dem Papier präsentierten Ergebnisse zeigen, dass große Sprachmodelle wie GPT-4 am besten abschneiden, wenn ihnen der Barrierefreiheitsbaum oder eine Kombination aus Screenshot und Barrierefreiheitsbaum zur Verfügung gestellt wird, und andere Eingabemodali-täten wie Screenshot-only oder Satz von Markierungen übertreffen. Dies deutet darauf hin, dass der Barrierefreiheitsbaum die informativste Verankerung für Agenten bietet, um Aufgaben in der OS World-Umgebung auszuführen.

Das OS World-Projekt stellt einen bedeutenden Schritt nach vorne in der Entwicklung robuster und skalierbarer Benchmarks für die Bewertung der Fähigkeiten von KI-Agenten in realen Computerumgebungen dar. Durch die Bereitstellung einer standardisierten und Open-Source-Plattform ermöglicht es Forschern und Entwicklern, die Leistung ihrer Agenten systematisch über eine breite Palette von Aufgaben und Szenarien hinweg zu bewerten und zu verbessern.

Schlussfolgerung

Das OS World-Projekt ist ein bedeutender Schritt nach vorne im Bereich des KI-Agenten-Benchmarkings. Indem es eine robuste, Open-Source-Umgebung für Agenten bereitstellt, um mit realen Computersystemen und -anwendungen zu interagieren, adressiert es eine entscheidende Lücke im derzeitigen Stand der KI-Bewertung.

Die Schlüsselhighlights des OS World-Projekts sind:

  1. Multimodale Interaktion: Die Umgebung unterstützt eine Vielzahl von Eingabemodalitäten, einschließlich Screenshots, Barrierefreiheitsbäume und Sätze von Markierungen, was es Agenten ermöglicht, die Computerumgebung auf natürlichere und umfassendere Weise wahrzunehmen und mit ihr zu interagieren.

  2. Reale Computeraufgaben: Das Projekt umfasst einen vielfältigen Satz von 369 realen Computeraufgaben, die sorgfältig aus Benutzeranweisungen zusammengestellt wurden und mehrstufige Arbeitsabläufe über verschiedene Anwendungen und Betriebssysteme hinweg beinhalten.

  3. Rigorose Bewertung: Die Aufgaben sind mit detaillierten Anfangszustandskonfigurationen und benutzerdefinierten Bewertungsskripten versehen, was eine standardisierte und objektive Bewertung der Agenten-Leistung ermöglicht.

  4. Open-Source-Verfügbarkeit: Das gesamte Projekt, einschließlich des Codes, der Daten und des Forschungspapiers, ist öffentlich verfügbar, was die Zusammenarbeit und weitere Fortschritte in diesem Bereich fördert.

Die in dem Papier präsentierten Ergebnisse zeigen das Potenzial großer Sprachmodelle wie GPT-4, diese komplexen, realen Computeraufgaben zu bewältigen, wobei der Barrierefreiheitsbaum oder eine Kombination aus Screenshot und Barrierefreiheitsbaum die effektivsten Eingabemodalitäten darstellen.

Das OS World-Projekt stellt einen bedeutenden Schritt in Richtung des Aufbaus leistungsfähigerer und vielseitigerer KI-Agenten dar, die nahtlos in das tägliche digitale Leben der Menschen integriert werden und ihnen dabei helfen können. Da sich das Feld der KI weiterentwickelt, werden Initiativen wie diese entscheidend sein, um den Fortschritt voranzutre

FAQ