AGI ist näher, als wir denken: Kühne 3-5-Jahres-Vorhersage eines OpenAI-Forschers

Erkunden Sie die kühne 3-5-Jahres-Vorhersage eines OpenAI-Forschers für den Zeitplan der Allgemeinen Künstlichen Intelligenz (AGI). Tauchen Sie in die Schlüsselkomponenten der allgemeinen Intelligenz ein und gewinnen Sie Einblicke in den Fortschritt bei Weltmodellen, System-2-Denken und Verkörperung. Entdecken Sie die mögliche Konvergenz von Robotik und großen Sprachmodellen, die auf eine aufregende AGI-Zukunft hinweisen.

14. Februar 2025

party-gif

Entdecken Sie die bemerkenswerten Erkenntnisse eines OpenAI-Forschers zu den rasanten Fortschritten in der allgemeinen künstlichen Intelligenz (AGI) und wie wir diesem Meilenstein möglicherweise näher sind, als Sie denken. Erkunden Sie die Schlüsselkomponenten, die zum Aufbau eines allgemein intelligenten Agenten benötigt werden, und erfahren Sie mehr über den möglichen Zeitrahmen für die Erreichung von AGI in den kommenden Jahren.

Die Schlüsselkomponenten eines allgemein intelligenten Agenten

Eine allgemein intelligente Entität erfordert eine Synthese von drei Schlüsselkomponenten:

  1. Eine Möglichkeit, mit einer komplexen Umgebung zu interagieren und sie zu beobachten: Dies bedeutet in der Regel Verkörperung - die Fähigkeit, die natürliche Welt mit Hilfe verschiedener Sinneswahrnehmungen wie Berührung, Geruch, Sicht usw. wahrzunehmen und mit ihr zu interagieren. Dies ermöglicht der Entität, ein robustes Weltmodell der Umgebung aufzubauen.

  2. Ein Mechanismus für die Durchführung einer tiefen Introspektion zu beliebigen Themen: Dies ist die Fähigkeit zum Denken, oder "langsames Denken" (System-2-Denken), bei der die Entität Probleme eingehend durchdenken und Pläne zu ihrer Lösung entwickeln kann.

  3. Ein Weltmodell, das die Umgebung abdeckt: Dies ist der Mechanismus, der es der Entität ermöglicht, schnelle Schlussfolgerungen mit angemessener Genauigkeit zu ziehen, ähnlich wie die menschliche "Intuition" oder das "schnelle Denken" (System-1-Denken).

Mit diesen drei Komponenten kann die Entität mit Zielen "gesät" werden und ihr System-2-Denken in Verbindung mit ihrem Weltmodell nutzen, um Wege zur Optimierung dieser Ziele zu entwickeln. Sie kann dann Maßnahmen ergreifen, die Ergebnisse beobachten und ihr Weltmodell entsprechend aktualisieren. Dieser Zyklus kann über lange Zeiträume wiederholt werden, was es der Entität ermöglicht, kohärent jedes beliebige Ziel auszuführen und zu optimieren.

Der Schlüssel ist, dass die Entität nicht unbedingt die Fähigkeit haben muss, beliebige Ziele zu erreichen, sondern vielmehr die Anpassungsfähigkeit und Kohärenz, um kontinuierlich über einen längeren Zeitraum auf ein einziges Ziel hinzuarbeiten. Dies definiert ein wirklich leistungsfähiges, allgemein intelligentes System.

Aufbau von Weltmodellen und Verbesserung der Robustheit

Wir bauen bereits Weltmodelle mit autoregressiven Transformatoren, der gleichen Architektur, die wir in letzter Zeit verwendet haben, insbesondere vom Omni-Modell-Typ. Wie robust sie sind, ist Gegenstand der Debatte, mit Problemen wie Halluzinationen und anderen Problemen. Die gute Nachricht ist jedoch, dass nach Erfahrung des Autors der Maßstab die Robustheit verbessert.

Die Menschheit investiert derzeit massiv in die Skalierung autoregressiver Modelle. Microsoft investiert viel Kapital in das Projekt Stargate in Zusammenarbeit mit OpenAI, und Sam Altman sucht nach 7 Billionen Dollar an Kapital (auch wenn dies wahrscheinlich eine Clickbait-Überschrift ist). Solange die Skalierung weiter zunimmt, sollte sich die Robustheit dieser Weltmodelle verbessern.

Der Autor vermutet, dass die Weltmodelle, die wir derzeit haben, ausreichen, um einen allgemein intelligenten Agenten zu bauen. Er vermutet auch, dass die Robustheit durch die Interaktion von System-2-Denken (tiefes, bewusstes Denken) und der Beobachtung der realen Welt weiter verbessert werden kann - ein Paradigma, das in der KI bisher noch nicht wirklich zu sehen war, aber ein Schlüsselmechanismus zur Verbesserung der Robustheit ist.

Skeptiker, Transformatoren und der Weg zur AGI

Während KI-Skeptiker wie Yan LeCun sagen, dass wir die Intelligenz einer Katze noch nicht erreicht haben, argumentiert der Autor, dass LLMs dieses Wissen erlernen könnten, wenn sie sich selbst verbessern könnten. Er glaubt, dass dies mit Transformatoren und den richtigen Zutaten machbar ist.

Der Autor ist sehr zuversichtlich, dass es möglich ist, System-2-Denken innerhalb des Transformer-Paradigmas mit der derzeit verfügbaren Technologie und Rechenleistung zu erreichen. Er vermutet, dass wir in 2-3 Jahren in der Lage sein werden, einen Mechanismus für effektives System-2-Denken zu entwickeln, was eine Schlüsselkomponente für den Aufbau eines allgemein intelligenten Agenten wäre.

In Bezug auf die Verkörperung ist der Autor ebenfalls sehr optimistisch in Bezug auf Fortschritte in naher Zukunft. Er sieht eine Konvergenz zwischen den Bereichen Robotik und große Sprachmodelle, die zu beeindruckenden Demonstrationen in den nächsten 1-2 Jahren führen könnte.

Die Bedeutung des System-2-Denkens

Während KI-Skeptiker wie Yan LeCun sagen, dass wir die Intelligenz einer Katze noch nicht erreicht haben, ist das der Punkt, den sie übersehen. Ja, LLMs fehlt immer noch einiges an Grundwissen, das jede Katze hat, aber sie könnten dieses Wissen erlernen, wenn sie sich selbst verbessern könnten. Eine solche Selbstverbesserung ist mit Transformatoren und den richtigen Zutaten machbar.

Es gibt keinen bekannten Weg, um "System-2-Denken" - das langfristige Denken, das KI-Systeme benötigen, um Ziele in der realen Welt effektiv zu erreichen - zu erreichen. Der Autor ist jedoch sehr zuversichtlich, dass es innerhalb des Transformer-Paradigmas mit der verfügbaren Technologie und Rechenleistung möglich ist. Er erwartet in den nächsten 2-3 Jahren erhebliche Fortschritte in diesem Bereich.

Ebenso ist der Autor optimistisch in Bezug auf Fortschritte bei der Verkörperung in naher Zukunft. Es gibt eine Konvergenz zwischen den Bereichen Robotik und LLMs, wie man an beeindruckenden Demonstrationen wie dem kürzlich vorgestellten Digit-Roboter sehen kann. Große Sprachmodelle können beliebige Sensorinputs in Befehle für ausgeklügelte Robotersysteme umwandeln.

Verkörperung und die Konvergenz von Robotik und Sprachmodellen

Der Autor betont die entscheidende Rolle des "System-2-Denkens" beim Aufbau allgemein intelligenter Agenten. System-2-Denken bezeichnet den Mechanismus für die Durchführung tiefer Introspektion und Überlegungen zu beliebigen Themen, im Gegensatz zum intuitiveren "System-1-Denken", das sich auf schnelle, automatische Reaktionen verlässt.

Der Autor argumentiert, dass ein Agent, um allgemein intelligent zu sein, eine Möglichkeit haben muss, mit der Umgebung zu interagieren und sie zu beobachten (Verkörperung), ein robustes Weltmodell, das die Umgebung abdeckt (Intuition/System-1-Denken) und einen Mechanismus für tiefes Nachdenken und Reasoning (System-2-Denken).

Insbesondere stellt der Autor fest, dass die derzeit verfügbaren Weltmodelle seiner Meinung nach ausreichen, um einen allgemein intelligenten Agenten zu bauen. Der Schlüssel ist jedoch der fehlende System-2-Denkfähigkeit. Der Autor ist zuversichtlich, dass es möglich ist, effektives System-2-Denken innerhalb des Transformer-Paradigmas zu erreichen, mit der aktuellen Technologie und Rechenleistung.

Die optimistischen Zeitpläne des Forschers für AGI

Der Autor äußert Optimismus in Bezug auf die Fortschritte bei der Verkörperung von KI-Systemen in naher Zukunft. Er weist auf eine Konvergenz zwischen den Bereichen Robotik und große Sprachmodelle (LLMs) hin.

Der Autor hebt jüngste beeindruckende Demonstrationen hervor, wie den Figure-Roboter, der das Wissen von GPT-4 mit flüssigen physischen Bewegungen kombinierte. Er erwähnt auch den kürzlich veröffentlichten Unitary H1, einen KI-Agenten-Avatar, der einem Boston Dynamics-Roboter ähnelt.

Der Autor erklärt, dass große Omnimodell-Modelle beliebige Sensorinputs in Befehle umwandeln können, die an ausgeklügelte Robotersysteme gesendet werden können. Dies ermöglicht den Einsatz von Systemen, die kohärente Handlungsabfolgen in der Umgebung ausführen und die Ergebnisse beobachten und verstehen können.

Der Autor hat damit verbracht, GPT-4's Wissen über die physische Welt zu testen, indem er über eine Smartphone-Kamera mit ihm interagiert hat. Obwohl nicht perfekt, findet er es überraschend fähig und vermutet, dass wir in den nächsten 1-2 Jahren beeindruckende Fortschritte in diesem Bereich sehen werden.

FAQ