L'AGI è più vicina di quanto pensiamo: la previsione audace di 3-5 anni di un ricercatore di OpenAI

Esplora l'audace previsione di 3-5 anni di un ricercatore di OpenAI sulla timeline dell'Intelligenza Artificiale Generale (AGI). Immergetevi nei componenti chiave dell'intelligenza generale e nelle intuizioni sui progressi nei modelli di mondo, nel pensiero di sistema 2 e nell'embodiment. Scoprite la potenziale convergenza della robotica e dei grandi modelli di linguaggio che lasciano intravedere un futuro AGI entusiasmante.

20 aprile 2025

Scopri le straordinarie intuizioni di un ricercatore di OpenAI sui rapidi progressi dell'intelligenza artificiale generale (AGI) e su come potremmo essere più vicini a questo traguardo di quanto si pensi. Esplora i principali componenti necessari per costruire un agente generalmente intelligente e scopri il potenziale calendario per il raggiungimento dell'AGI nei prossimi anni.

I Componenti Chiave di un Agente Generalmente Intelligente
Costruire Modelli del Mondo e Migliorare la Robustezza
Scettici, Trasformatori e il Percorso verso l'AGI
L'Importanza del Pensiero di Sistema 2
Embodiment e la Convergenza della Robotica e dei Modelli di Linguaggio
Le Tempistiche Ottimistiche del Ricercatore per l'AGI

I Componenti Chiave di un Agente Generalmente Intelligente

Un'entità generalmente intelligente richiede la sintesi di tre componenti chiave:

Un modo di interagire e osservare un ambiente complesso: Ciò significa tipicamente l'incarnazione - la capacità di percepire e interagire con il mondo naturale utilizzando vari input sensoriali come tatto, olfatto, vista, ecc. Ciò consente all'entità di costruire un modello del mondo robusto che copre l'ambiente.
Un meccanismo per eseguire una profonda introspezione su argomenti arbitrari: Questa è la capacità di ragionare, o "pensiero lento" (pensiero di sistema 2), dove l'entità può pensare profondamente ai problemi e ideare piani per risolverli.
Un modello del mondo che copre l'ambiente: Questo è il meccanismo che consente all'entità di eseguire inferenze rapide con ragionevole accuratezza, simile all'"intuizione" umana o al "pensiero veloce" (pensiero di sistema 1).

Con questi tre componenti, l'entità può essere "seminata" con obiettivi e utilizzare il suo pensiero di sistema 2 in combinazione con il suo modello del mondo per ideare modi per ottimizzare tali obiettivi. Può quindi intraprendere azioni, osservare i risultati e aggiornare di conseguenza il suo modello del mondo. Questo ciclo può essere ripetuto per lunghi periodi, consentendo all'entità di eseguire e ottimizzare in modo coerente qualsiasi obiettivo dato.

Il punto chiave è che l'entità non necessariamente deve avere la capacità di raggiungere obiettivi arbitrari, ma piuttosto l'adattabilità e la coerenza per agire continuamente verso un singolo obiettivo nel tempo. Questo è ciò che definisce un sistema generalmente intelligente e davvero capace.

Costruire Modelli del Mondo e Migliorare la Robustezza

Stiamo già costruendo modelli del mondo con Transformer autoregressivi, la stessa architettura che abbiamo utilizzato di recente, in particolare della varietà Omni. Quanto siano robusti è oggetto di dibattito, con problemi come allucinazioni e altri problemi. Tuttavia, la buona notizia è che, secondo l'esperienza dell'autore, la scala migliora la robustezza.

L'umanità sta attualmente investendo molto capitale nella scalatura dei modelli autoregressivi. Microsoft sta investendo molto capitale nel Progetto Stargate in collaborazione con OpenAI, e Sam Altman sta cercando 7 trilioni di dollari di capitale (anche se questo è probabilmente un titolo accattivante). Finché la scala continuerà ad aumentare, la robustezza di questi modelli del mondo dovrebbe migliorare.

L'autore sospetta che i modelli del mondo che abbiamo al momento siano sufficienti per costruire un agente generalmente intelligente. Sospetta anche che la robustezza possa essere ulteriormente migliorata attraverso l'interazione del pensiero di sistema 2 (ragionamento profondo e deliberato) e l'osservazione del mondo reale - un paradigma che non è stato ancora visto nell'IA, ma è un meccanismo chiave per migliorare la robustezza.

Mentre gli scettici degli LLM come Yan LeCun dicono che non abbiamo ancora raggiunto l'intelligenza di un gatto, l'autore sostiene che gli LLM potrebbero apprendere quella conoscenza data la capacità di migliorarsi da soli. Ritiene che ciò sia fattibile con i Transformer e gli ingredienti giusti.

Scettici, Trasformatori e il Percorso verso l'AGI

Mentre gli scettici degli LLM come Yan LeCun dicono che non abbiamo ancora raggiunto l'intelligenza di un gatto, questo è il punto che stanno perdendo. Sì, gli LLM mancano ancora di alcune conoscenze di base che ogni gatto possiede, ma potrebbero imparare quella conoscenza data la capacità di migliorarsi da soli. Tale miglioramento autonomo è fattibile con i Transformer e gli ingredienti giusti.

Non esiste un modo ben noto per raggiungere il "pensiero di sistema 2" - il ragionamento a lungo termine di cui i sistemi AI hanno bisogno per raggiungere efficacemente gli obiettivi nel mondo reale. Tuttavia, l'autore è abbastanza fiducioso che sia possibile all'interno del paradigma Transformer con la tecnologia e l'elaborazione disponibili. Si aspetta di vedere progressi significativi in questo ambito nei prossimi 2-3 anni.

Anche per quanto riguarda l'incarnazione, l'autore è ottimista sui progressi a breve termine. C'è una convergenza in atto tra i campi della robotica e degli LLM, come dimostrato in impressionanti demo come il recente robot Digit. I modelli di linguaggio su larga scala possono mappare input sensoriali arbitrari in comandi per sistemi robotici sofisticati.

L'Importanza del Pensiero di Sistema 2

L'autore sottolinea il ruolo fondamentale del "pensiero di sistema 2" nella costruzione di agenti generalmente intelligenti. Il pensiero di sistema 2 si riferisce al meccanismo per eseguire una profonda introspezione e ragionamento su argomenti arbitrari, a differenza del più intuitivo "pensiero di sistema 1" che si basa su risposte rapide e automatiche.

L'autore sostiene che affinché un agente sia generalmente intelligente, deve avere un modo di interagire e osservare l'ambiente (incarnazione), un modello del mondo robusto che copra l'ambiente (intuizione/pensiero di sistema 1) e un meccanismo per l'introspezione e il ragionamento approfonditi (pensiero di sistema 2).

In particolare, l'autore afferma che con i modelli del mondo attualmente disponibili, sospetta che siano sufficienti per costruire un agente generalmente intelligente. Tuttavia, il pezzo chiave mancante è la capacità di pensiero di sistema 2. L'autore è fiducioso che sia possibile raggiungere un pensiero di sistema 2 efficace all'interno del paradigma Transformer, data la tecnologia e l'elaborazione attualmente disponibili.

L'autore stima che lo sviluppo di un meccanismo di pensiero di sistema 2 robusto richiederà 2-3 anni. Combinato con 1-2 anni per migliorare le capacità di incarnazione, l'autore prevede che potremmo vedere l'emergere di un agente generalmente intelligente e incarnato entro 3-5 anni. Ciò rappresenterebbe una tappa fondamentale sulla strada verso l'AGI.

Embodiment e la Convergenza della Robotica e dei Modelli di Linguaggio

L'autore esprime ottimismo sui progressi a breve termine nell'incarnazione dei sistemi AI. Nota una convergenza in atto tra i campi della robotica e dei modelli di linguaggio su larga scala (LLM).

L'autore evidenzia recenti dimostrazioni impressionanti, come il robot Figure che ha combinato la conoscenza di GPT-4 con movimenti fisici fluidi. Menziona anche il recente Unitary H1, un agente AI avatar che assomiglia a un robot di Boston Dynamics.

L'autore spiega che i modelli omnimodali su larga scala possono mappare input sensoriali arbitrari in comandi che possono essere inviati a sistemi robotici sofisticati. Ciò consente la distribuzione di sistemi in grado di eseguire sequenze coerenti di azioni nell'ambiente e osservare e comprendere i risultati.

L'autore ha trascorso del tempo testando la conoscenza di GPT-4 del mondo fisico interagendo con esso attraverso una fotocamera dello smartphone. Anche se non perfetto, lo trova sorprendentemente capace e sospetta che vedremo progressi impressionanti nei prossimi 1-2 anni in quest'area.

In sintesi, l'attuale stima dell'autore per il raggiungimento dell'AGI è di 3-5 anni, con una tendenza verso i 3 anni per qualcosa che assomigli a un agente generalmente intelligente e incarnato, che personalmente considererebbe un'AGI. Tuttavia, riconosce che potrebbero essere necessari alcuni anni in più per convincere figure più scettiche come Gary Marcus.

FAQ

Qual è la definizione di intelligenza generale secondo il post del blog?

Secondo l'autore, quando stima che raggiungeremo l'AGI?

Quali sono i tre componenti chiave che l'autore dice sono necessari per costruire un agente generalmente intelligente?

Cosa dice l'autore sui progressi necessari nei prossimi 1-2 anni per l'embodiment e il pensiero di sistema 2?

Come risponde l'autore alla critica dell'scettico dell'IA Yan LeCun secondo cui i modelli linguistici attuali non sono intelligenti quanto un gatto?

Crea la tua ragazza AI

Costruisci il tuo compagno ideale con il nostro costruttore di fidanzate AI