L'AGI est plus proche que nous le pensons : la prédiction audacieuse de 3 à 5 ans d'un chercheur d'OpenAI

Explorez la prédiction audacieuse d'un chercheur d'OpenAI sur la chronologie de l'Intelligence Générale Artificielle (AGI) pour les 3 à 5 prochaines années. Plongez dans les composants clés de l'intelligence générale et les perspectives sur les progrès des modèles mondiaux, de la pensée de système 2 et de l'incarnation. Découvrez la convergence potentielle de la robotique et des modèles de langage à grande échelle, annonçant un avenir passionnant pour l'AGI.

20 février 2025

party-gif

Découvrez les remarquables perspectives d'un chercheur d'OpenAI sur les progrès rapides de l'intelligence artificielle générale (AGI) et sur la possibilité que nous soyons plus proches de cette étape que vous ne le pensez. Explorez les principaux éléments nécessaires pour construire un agent généralement intelligent et apprenez sur le calendrier potentiel pour atteindre l'AGI dans les années à venir.

Les composants clés d'un agent généralement intelligent

Une entité généralement intelligente nécessite la synthèse de trois composants clés :

  1. Un moyen d'interagir avec et d'observer un environnement complexe : Cela signifie généralement l'incarnation - la capacité de percevoir et d'interagir avec le monde naturel en utilisant divers inputs sensoriels comme le toucher, l'odorat, la vue, etc. Cela permet à l'entité de construire un modèle du monde robuste couvrant l'environnement.

  2. Un mécanisme permettant une introspection approfondie sur des sujets arbitraires : C'est la capacité de raisonnement, ou de "pensée lente" (pensée de système 2), où l'entité peut réfléchir en profondeur aux problèmes et concevoir des plans pour les résoudre.

  3. Un modèle du monde couvrant l'environnement : C'est le mécanisme qui permet à l'entité d'effectuer des inférences rapides avec une précision raisonnable, semblable à l'"intuition" ou à la "pensée rapide" (pensée de système 1) humaine.

Construire des modèles mondiaux et améliorer la robustesse

Nous construisons déjà des modèles du monde avec des transformateurs autorégressifs, la même architecture que nous avons utilisée récemment, en particulier du type Omni. Leur robustesse est sujette à débat, avec des problèmes comme les hallucinations et d'autres problèmes. Cependant, la bonne nouvelle est que selon l'expérience de l'auteur, l'échelle améliore la robustesse.

L'humanité investit actuellement massivement dans le développement de modèles autorégressifs à grande échelle. Microsoft investit beaucoup de capital dans le projet Stargate en collaboration avec OpenAI, et Sam Altman cherche à lever 7 billions de dollars (bien que ce soit probablement un titre accrocheur). Tant que l'échelle continue d'augmenter, la robustesse de ces modèles du monde devrait s'améliorer.

L'auteur soupçonne que les modèles du monde que nous avons actuellement sont suffisants pour construire un agent généralement intelligent. Il soupçonne également que la robustesse peut être encore améliorée grâce à l'interaction de la pensée de système 2 (raisonnement approfondi et délibéré) et de l'observation du monde réel - un paradigme qui n'a pas encore vraiment été vu dans l'IA, mais qui est un mécanisme clé pour améliorer la robustesse.

Sceptiques, transformateurs et le chemin vers l'AGI

Bien que les sceptiques des LLM comme Yan LeCun disent que nous n'avons pas encore atteint l'intelligence d'un chat, l'auteur fait valoir que les LLM pourraient apprendre ces connaissances grâce à leur capacité d'auto-amélioration. Il pense que c'est réalisable avec les transformateurs et les bons ingrédients.

L'auteur est assez confiant qu'il est possible d'atteindre la pensée de système 2 dans le paradigme des transformateurs avec la technologie et la puissance de calcul disponibles actuellement. Il pense que nous serons en mesure de construire un mécanisme pour une pensée de système 2 efficace dans les 2 à 3 prochaines années, ce qui serait un élément clé pour construire un agent généralement intelligent.

En ce qui concerne l'incarnation, l'auteur est également assez optimiste quant aux progrès à court terme. Il voit une convergence entre les domaines de la robotique et des modèles de langage à grande échelle, ce qui pourrait conduire à des démonstrations impressionnantes dans les 1 à 2 prochaines années.

En résumé, l'auteur pense que nous avons résolu la construction de modèles du monde, avons 2 à 3 ans pour résoudre la pensée de système 2, et 1 à 2 ans pour résoudre l'incarnation. Une fois ces ingrédients clés en place, les intégrer ensemble dans l'algorithme cyclique qu'il a décrit pourrait prendre encore 1 à 2 ans. Son estimation actuelle pour l'AGI est de 3 à 5 ans, avec une tendance vers 3 ans pour quelque chose ressemblant à un agent généralement intelligent incarné.

L'importance de la pensée de système 2

Bien que les sceptiques des LLM comme Yan LeCun disent que nous n'avons pas encore atteint l'intelligence d'un chat, c'est le point qu'ils manquent. Oui, les LLM manquent encore de certaines connaissances de base que possède chaque chat, mais ils pourraient apprendre ces connaissances grâce à leur capacité d'auto-amélioration. Une telle auto-amélioration est réalisable avec les transformateurs et les bons ingrédients.

Il n'y a pas de moyen bien connu pour atteindre la "pensée de système 2" - le raisonnement à long terme dont les systèmes d'IA ont besoin pour atteindre efficacement leurs objectifs dans le monde réel. Cependant, l'auteur est assez confiant que c'est possible dans le paradigme des transformateurs avec la technologie et la puissance de calcul disponibles. Il s'attend à voir des progrès significatifs à ce sujet dans les 2 à 3 prochaines années.

De même, l'auteur est optimiste quant aux progrès à court terme en matière d'incarnation. Il y a une convergence entre les domaines de la robotique et des LLM, comme on peut le voir dans des démonstrations impressionnantes comme le robot Digit récent. Les modèles de langage à grande échelle peuvent mapper des entrées de capteurs arbitraires en commandes pour des systèmes robotiques sophistiqués.

L'incarnation et la convergence de la robotique et des modèles de langage

L'auteur souligne le rôle essentiel de la "pensée de système 2" dans la construction d'agents généralement intelligents. La pensée de système 2 fait référence au mécanisme permettant d'effectuer une introspection et un raisonnement approfondis sur des sujets arbitraires, par opposition à la "pensée de système 1" plus intuitive qui s'appuie sur des réponses rapides et automatiques.

L'auteur affirme que pour qu'un agent soit généralement intelligent, il doit avoir un moyen d'interagir avec l'environnement et de l'observer (incarnation), un modèle du monde robuste couvrant l'environnement (intuition/pensée de système 1) et un mécanisme d'introspection et de raisonnement approfondis (pensée de système 2).

Plus précisément, l'auteur déclare que, selon lui, les modèles du monde actuellement disponibles sont suffisants pour construire un agent généralement intelligent. Cependant, la pièce manquante essentielle est la capacité de pensée de système 2. L'auteur est convaincu qu'il est possible d'atteindre une pensée de système 2 efficace dans le paradigme des transformateurs, étant donné la technologie et la puissance de calcul actuellement disponibles.

L'auteur estime que le développement d'un mécanisme de pensée de système 2 robuste prendra 2 à 3 ans. Combiné à 1 à 2 ans pour améliorer les capacités d'incarnation, l'auteur prédit que nous pourrions voir l'émergence d'un agent généralement intelligent et incarné dans les 3 à 5 ans. Il s'agirait d'une étape majeure sur la voie de l'AGI.

Les délais optimistes des chercheurs pour l'AGI

L'auteur exprime son optimisme quant aux progrès à court terme dans l'incarnation des systèmes d'IA. Il note une convergence entre les domaines de la robotique et des modèles de langage à grande échelle (LLM).

L'auteur met en avant des démonstrations récentes impressionnantes, comme le robot Figure qui a combiné les connaissances de GPT-4 avec des mouvements physiques fluides. Il mentionne également le Unitary H1 récemment publié, un agent IA avatar qui ressemble à un robot Boston Dynamics.

L'auteur explique que les modèles omnimodaux à grande échelle peuvent mapper des entrées sensorielles arbitraires en commandes qui peuvent être envoyées à des systèmes robotiques sophistiqués. Cela permet le déploiement de systèmes capables d'effectuer des séquences cohérentes d'actions dans l'environnement et d'observer et de comprendre les résultats.

L'auteur a passé du temps à tester les connaissances de GPT-4 sur le monde physique en interagissant avec lui via une caméra de smartphone. Bien que ce ne soit pas parfait, il le trouve étonnamment capable, et soupçonne que nous verrons des progrès impressionnants dans les 1 à 2 prochaines années dans ce domaine.

L'auteur résume que nous avons essentiellement résolu le problème de la construction de modèles du monde, et qu'il nous reste 2 à 3 ans pour atteindre une pensée de système 2 efficace (raisonnement à long terme). Parallèlement, il s'attend à 1 à 2 ans de progrès sur l'incarnation. Une fois ces ingrédients clés en place, les intégrer dans l'algorithme cyclique décrit précédemment prendra encore 1 à 2 ans.

Dans l'ensemble, l'estimation actuelle de l'auteur pour atteindre l'AGI est de 3 à 5 ans, avec une tendance vers 3 ans pour quelque chose ressemblant à un agent généralement intelligent et incarné, ce qu'il considérerait personnellement comme une AGI. Cependant, il reconnaît qu'il faudra peut-être quelques années de plus pour convaincre des figures plus sceptiques comme Gary Marcus.

FAQ