AGI Is Dichter Dan We Denken: OpenAI Onderzoeker's Gedurfde 3-5 Jaar Voorspelling

Verken de gedurfde 3-5 jaar voorspelling van een OpenAI-onderzoeker voor de tijdlijn van Artificial General Intelligence (AGI). Duik in de belangrijkste componenten van algemene intelligentie en inzichten over de vooruitgang in wereldmodellen, systeem 2-denken en belichaming. Ontdek de mogelijke convergentie van robotica en grote taalmodellen die wijzen op een opwindende AGI-toekomst.

24 februari 2025

party-gif

Ontdek de opmerkelijke inzichten van een OpenAI-onderzoeker over de snelle vooruitgang in algemene kunstmatige intelligentie (AGI) en hoe we dichter bij deze mijlpaal kunnen zijn dan je denkt. Verken de belangrijkste componenten die nodig zijn om een algemeen intelligente agent te bouwen en leer over de potentiële tijdlijn voor het bereiken van AGI in de komende jaren.

De belangrijkste componenten van een algemeen intelligente agent

Een algemeen intelligent entiteit vereist een synthese van drie belangrijke componenten:

  1. Een manier om te interageren met en waar te nemen in een complexe omgeving: Dit betekent meestal belichaming - het vermogen om de natuurlijke wereld waar te nemen en ermee te interageren met behulp van verschillende zintuiglijke inputs zoals aanraking, geur, zicht, enz. Dit stelt de entiteit in staat om een robuust wereldmodel op te bouwen dat de omgeving dekt.

  2. Een mechanisme voor het uitvoeren van diepgaande introspectie op willekeurige onderwerpen: Dit is het vermogen tot redeneren, of "langzaam denken" (systeem 2 denken), waarbij de entiteit diep kan nadenken over problemen en plannen kan bedenken om ze op te lossen.

  3. Een wereldmodel dat de omgeving dekt: Dit is het mechanisme dat de entiteit in staat stelt om snelle inferenties te maken met redelijke nauwkeurigheid, vergelijkbaar met de menselijke "intuïtie" of "snel denken" (systeem 1 denken).

Met deze drie componenten kan de entiteit worden "gezaaid" met doelstellingen, en kan het zijn systeem 2-denken in combinatie met zijn wereldmodel gebruiken om manieren te bedenken om die doelstellingen te optimaliseren. Het kan vervolgens acties ondernemen, de resultaten observeren en zijn wereldmodel dienovereenkomstig bijwerken. Deze cyclus kan over lange perioden worden herhaald, waardoor de entiteit coherent kan uitvoeren en optimaliseren voor een willekeurig gegeven doel.

De sleutel is dat de entiteit niet per se het vermogen hoeft te hebben om willekeurige doelstellingen te bereiken, maar eerder de aanpassingsvermogen en coherentie om continu te handelen naar een enkel doel over de tijd. Dit is wat een echt capabel, algemeen intelligent systeem definieert.

Wereldmodellen bouwen en robuustheid verbeteren

We bouwen al wereldmodellen op met autoregressive Transformers, dezelfde architectuur die we recent hebben gebruikt, vooral van het Omni-modeltype. Hoe robuust ze zijn, is onderwerp van discussie, met problemen als hallucinaties en andere problemen. Het goede nieuws is echter dat volgens de ervaring van de auteur, schaal de robuustheid verbetert.

De mensheid pompt momenteel kapitaal in het opschalen van autoregressive modellen. Microsoft pompt veel kapitaal in Project Stargate in samenwerking met OpenAI, en Sam Altman zoekt $7 biljoen aan kapitaal (hoewel dit waarschijnlijk een clickbait-kop is). Zolang de schaal blijft toenemen, zal de robuustheid van deze wereldmodellen verbeteren.

De auteur vermoedt dat de wereldmodellen die we nu hebben, voldoende zijn om een algemeen intelligente agent te bouwen. Hij vermoedt ook dat de robuustheid verder kan worden verbeterd via de interactie van systeem 2-denken (diep, opzettelijk redeneren) en het observeren van de echte wereld - een paradigma dat nog niet echt in AI is gezien, maar een sleutelmechanisme is voor het verbeteren van de robuustheid.

Hoewel LLM-sceptici zoals Yan LeCun zeggen dat we de intelligentie van een kat nog niet hebben bereikt, betoogt de auteur dat LLM's die kennis zouden kunnen leren, gegeven het vermogen tot zelfverbetering. Hij gelooft dat dit haalbaar is met Transformers en de juiste ingrediënten.

Sceptici, transformatoren en het pad naar AGI

Hoewel LLM-sceptici zoals Yan LeCun zeggen dat we de intelligentie van een kat nog niet hebben bereikt, is dit het punt dat ze missen. Ja, LLM's missen nog steeds enkele basiskennis die elke kat heeft, maar ze zouden die kennis kunnen leren, gegeven het vermogen tot zelfverbetering. Zo'n zelfverbetering is haalbaar met Transformers en de juiste ingrediënten.

Er is geen algemeen bekende manier om "systeem 2-denken" te bereiken - het langetermijnredeneren dat AI-systemen nodig hebben om effectief doelen in de echte wereld te bereiken. De auteur is echter vrij zeker dat dit mogelijk is binnen het Transformer-paradigma met de beschikbare technologie en rekenkracht. Hij verwacht in de komende 2-3 jaar aanzienlijke vooruitgang op dit gebied te zien.

Evenzo is de auteur optimistisch over de vooruitgang op korte termijn op het gebied van belichaming. Er is een convergentie gaande tussen de gebieden robotica en LLM's, zoals te zien in indrukwekkende demonstraties zoals de recente Digit-robot. Grote taalmodellen kunnen willekeurige sensorinvoer in commando's voor geavanceerde robotsystemen omzetten.

De auteur heeft GPT-4's kennis van de fysieke wereld getest door ermee te interageren via een smartphone-camera. Hoewel niet perfect, is het verrassend capabel, en de auteur vermoedt dat we in de komende 1-2 jaar echt indrukwekkende vooruitgang zullen zien in het inzetten van systemen die coherente reeksen acties in de omgeving kunnen ondernemen en de resultaten kunnen observeren.

Het belang van System 2-denken

De auteur benadrukt de cruciale rol van "systeem 2-denken" bij het bouwen van algemeen intelligente agenten. Systeem 2-denken verwijst naar het mechanisme voor het uitvoeren van diepgaande introspectie en redeneren over willekeurige onderwerpen, in tegenstelling tot het meer intuïtieve "systeem 1-denken" dat vertrouwt op snelle, automatische reacties.

De auteur betoogt dat een agent om algemeen intelligent te zijn, een manier moet hebben om met de omgeving te interageren en deze waar te nemen (belichaming), een robuust wereldmodel dat de omgeving dekt (intuïtie/systeem 1-denken) en een mechanisme voor diepgaand introspectie en redeneren (systeem 2-denken).

Specifiek stelt de auteur dat met de wereldmodellen die momenteel beschikbaar zijn, hij vermoedt dat ze voldoende zijn om een algemeen intelligente agent te bouwen. De sleutel ontbrekende component is echter het systeem 2-denkend vermogen. De auteur is ervan overtuigd dat het mogelijk is om effectief systeem 2-denken binnen het transformer-paradigma te bereiken, gezien de huidige technologie en rekenkracht.

De auteur schat dat het ontwikkelen van een robuust systeem 2-denkend mechanisme 2-3 jaar zal duren. Gecombineerd met 1-2 jaar voor het verbeteren van belichamingsvaardigheden, voorspelt de auteur dat we binnen 3-5 jaar de opkomst van een algemeen intelligente, belichaamde agent kunnen zien. Dit zou een belangrijke mijlpaal zijn op weg naar AGI.

Belichaming en de convergentie van robotica en taalmodellen

De auteur uit optimisme over de vooruitgang op korte termijn op het gebied van de belichaming van AI-systemen. Hij merkt een convergentie op tussen de gebieden robotica en grote taalmodellen (LLM's).

De auteur benadrukt recente indrukwekkende demonstraties, zoals de Figure-robot die de kennis van GPT-4 combineerde met vloeiende fysieke bewegingen. Hij vermelkt ook de onlangs uitgebrachte Unitary H1, een AI-agentavatar die lijkt op een Boston Dynamics-robot.

De auteur legt uit dat grote omnimodale modellen willekeurige sensorinvoer kunnen omzetten in commando's die naar geavanceerde robotsystemen kunnen worden gestuurd. Dit maakt de inzet mogelijk van systemen die coherente reeksen acties in de omgeving kunnen uitvoeren en de resultaten kunnen observeren en begrijpen.

De auteur heeft tijd besteed aan het testen van GPT-4's kennis van de fysieke wereld door ermee te interacteren via een smartphone-camera. Hoewel niet perfect, vindt hij het verrassend capabel, en vermoedt hij dat we in de komende 1-2 jaar indrukwekkende vooruitgang zullen zien op dit gebied.

De auteur vat samen dat we het probleem van het bouwen van wereldmodellen in feite hebben opgelost, en dat we nog 2-3 jaar hebben tot we effectief systeem 2-denken (langetermijnredeneren) kunnen bereiken. Tegelijkertijd verwacht hij 1-2 jaar vooruitgang op het gebied van belichaming. Zodra deze sleutelingrediënten op hun plaats zijn, zal het integreren ervan in het eerder beschreven cyclische algoritme nog eens 1-2 jaar duren.

In het algemeen is de huidige schatting van de auteur voor het bereiken van AGI 3-5 jaar, met een lichte voorkeur voor 3 jaar voor iets dat lijkt op een algemeen intelligente, belichaamde agent, wat hij persoonlijk als een AGI zou beschouwen. Hij erkent echter dat het nog enkele jaren kan duren om zelfs de sceptische figuren te overtuigen.

FAQ