AGI är närmare än vi tror: OpenAI-forskares djärva 3-5 års prognos

Utforska en OpenAI-forskares djärva 3-5-åriga prognos för tidslinjen för Artificiell Generell Intelligens (AGI). Dyk in i de viktigaste komponenterna av generell intelligens och insikter om framstegen inom världsmodeller, system 2-tänkande och förkroppsligande. Upptäck den potentiella konvergensen av robotik och stora språkmodeller som antyder en spännande AGI-framtid.

17 februari 2025

party-gif

Upptäck de anmärkningsvärda insikterna från en OpenAI-forskare om de snabba framstegen inom artificiell allmän intelligens (AGI) och hur vi kan vara närmare denna milstolpe än du tror. Utforska de nyckelkomponenter som behövs för att bygga en generellt intelligent agent och lär dig om den potentiella tidslinjen för att uppnå AGI under de kommande åren.

De viktigaste komponenterna i en generellt intelligent agent

En generellt intelligent enhet kräver en syntes av tre nyckelkomponenter:

  1. Ett sätt att interagera med och observera en komplex miljö: Detta innebär vanligtvis förkroppsligande - förmågan att uppfatta och interagera med den naturliga världen med hjälp av olika sensoriska indata som beröring, lukt, syn osv. Detta gör att enheten kan bygga en robust världsmodell som täcker miljön.

  2. En mekanism för att utföra djup självreflektion om godtyckliga ämnen: Detta är kapaciteten för resonemang eller "långsamt tänkande" (system 2-tänkande), där enheten kan tänka djupt om problem och utarbeta planer för att lösa dem.

  3. En världsmodell som täcker miljön: Detta är mekanismen som gör att enheten kan göra snabba slutsatser med rimlig noggrannhet, likt mänsklig "intuition" eller "snabbt tänkande" (system 1-tänkande).

Med dessa tre komponenter kan enheten "sås" med mål och använda sitt system 2-tänkande tillsammans med sin världsmodell för att komma på sätt att optimera för dessa mål. Den kan sedan vidta åtgärder, observera resultaten och uppdatera sin världsmodell i enlighet med detta. Denna cykel kan upprepas under långa perioder, vilket gör att enheten kan genomföra och optimera för ett givet mål på ett sammanhängande sätt.

Nyckel är att enheten inte nödvändigtvis behöver kapaciteten att uppnå godtyckliga mål, utan snarare anpassningsförmågan och sammanhanget för att kontinuerligt agera mot ett enda mål över tid. Detta är vad som definierar ett verkligt kapabelt, generellt intelligent system.

Att bygga världsmodeller och förbättra robusthet

Vi bygger redan världsmodeller med autoregressiva transformatorer, samma arkitektur som vi har använt nyligen, särskilt av Omni-modellvarieteten. Hur robusta de är är upp för debatt, med problem som hallucinationer och andra problem. Men det goda nyheterna är att enligt författarens erfarenhet förbättrar skala robustheten.

Mänskligheten pumpar för närvarande in kapital i att skala upp autoregressiva modeller. Microsoft pumpar in mycket kapital i Project Stargate tillsammans med OpenAI, och Sam Altman söker 7 biljoner dollar i kapital (även om detta troligen är en klickbeteslinje). Så länge skalan fortsätter att öka, bör robustheten i dessa världsmodeller förbättras.

Författaren misstänker att de världsmodeller vi har just nu är tillräckliga för att bygga en generellt intelligent agent. Han misstänker också att robustheten kan förbättras ytterligare genom interaktionen mellan system 2-tänkande (djupt, medvetet resonemang) och observation av den verkliga världen - en paradigm som ännu inte har setts i AI, men som är en nyckelmekanism för att förbättra robustheten.

Medan LLM-skeptiker som Yan LeCun säger att vi ännu inte har uppnått kattens intelligens, hävdar författaren att LLM:er skulle kunna lära sig den kunskapen om de fick möjlighet att självförbättras. Han tror att detta är genomförbart med transformatorer och de rätta ingredienserna.

Skeptiker, transformatorer och vägen till AGI

Medan LLM-skeptiker som Yan LeCun säger att vi ännu inte har uppnått kattens intelligens, är detta den punkt de missar. Ja, LLM:er saknar fortfarande viss grundläggande kunskap som varje katt har, men de skulle kunna lära sig den kunskapen om de fick möjlighet att självförbättras. Sådan självförbättring är genomförbar med transformatorer och de rätta ingredienserna.

Det finns inget välkänt sätt att uppnå "system 2-tänkande" - det långsiktiga resonemang som AI-system behöver för att effektivt uppnå mål i den verkliga världen. Men författaren är ganska säker på att det är möjligt inom transformatorparadigmet med den teknik och beräkningskapacitet som finns tillgänglig. Han förväntar sig att se betydande framsteg på detta område under de kommande 2-3 åren.

På samma sätt är författaren optimistisk när det gäller framsteg inom förkroppsligande på kort sikt. Det sker en konvergens mellan robotik och LLM, som syns i imponerande demonstrationer som den nyligen släppta Digit-roboten. Stora språkmodeller kan kartlägga godtyckliga sensoriska indata till kommandon för avancerade robotsystem.

Vikten av System 2-tänkande

Författaren betonar den avgörande rollen för "system 2-tänkande" i att bygga generellt intelligenta agenter. System 2-tänkande avser mekanismen för att utföra djup självreflektion och resonemang om godtyckliga ämnen, i motsats till det mer intuitiva "system 1-tänkande" som förlitar sig på snabba, automatiska svar.

Författaren hävdar att för att en agent ska vara generellt intelligent, behöver den ha ett sätt att interagera med och observera miljön (förkroppsligande), en robust världsmodell som täcker miljön (intuition/system 1-tänkande) och en mekanism för djup självreflektion och resonemang (system 2-tänkande).

Specifikt säger författaren att med de världsmodeller som för närvarande finns tillgängliga misstänker han att de är tillräckliga för att bygga en generellt intelligent agent. Nyckeln som saknas är dock system 2-tänkandeförmågan. Författaren är säker på att det är möjligt att uppnå effektivt system 2-tänkande inom transformatorparadigmet, med tanke på den nuvarande tekniken och beräkningskapaciteten som finns tillgänglig.

Kroppslighet och konvergensen mellan robotik och språkmodeller

Författaren uttrycker optimism kring de nära förestående framstegen inom förkroppsligande av AI-system. Han noterar en konvergens som sker mellan robotik och stora språkmodeller (LLM).

Författaren lyfter fram nyliga imponerande demonstrationer, som roboten Figure som kombinerade kunskapen från GPT-4 med flytande fysiska rörelser. Han nämner också den nyligen släppta Unitary H1, en AI-agentatarr som liknar en Boston Dynamics-robot.

Författaren förklarar att stora omnimodala modeller kan kartlägga godtyckliga sensoriska indata till kommandon som kan skickas till avancerade robotsystem. Detta möjliggör distribution av system som kan utföra sammanhängande sekvenser av åtgärder i miljön och observera och förstå resultaten.

Författaren har spenderat tid på att testa GPT-4:s kunskap om den fysiska världen genom att interagera med den via en smarttelefonkamera. Även om den inte är perfekt, finner han den överraskande kapabel, och misstänker att vi kommer se imponerande framsteg under de kommande 1-2 åren på detta område.

FAQ