我們比想象中更接近AGI:OpenAI研究員的3-5年大膽預測

探索OpenAI研究員對人工通用智能(AGI)時間線的大膽3-5年預測。深入了解通用智能的關鍵組成部分,以及對世界模型、系統2思維和具身性進展的見解。發現機器人和大型語言模型的潛在融合,暗示著令人興奮的AGI未來。

2025年2月24日

探索來自 OpenAI 研究人員對人工通用智能 (AGI) 快速進步的卓越見解,以及我們可能比您所想更接近這一里程碑。探索建立通用智能代理所需的關鍵組件,並了解在未來幾年內實現 AGI 的潛在時間表。

一般智能代理的關鍵組件

要建立一個普遍智能的實體,需要三個關鍵要素的綜合:

與複雜環境互動和觀察的方式: 這通常意味著具有實體化 - 能夠使用觸摸、嗅覺、視覺等各種感官輸入來感知和互動自然世界。這使實體能夠建立涵蓋環境的健壯世界模型。
進行任意主題深度內省的機制: 這是推理或"緩慢思考"(系統2思考)的能力,實體可以深入思考問題並制定解決方案。
涵蓋環境的世界模型: 這是允許實體快速進行合理準確推論的機制,類似於人類的"直覺"或"快速思考"(系統1思維)。

有了這三個要素,實體就可以被賦予目標,並利用其系統2思維結合世界模型來構思優化這些目標的方法。它可以採取行動,觀察結果,並相應更新其世界模型。這個循環可以重複很長時間,使實體能夠連貫地執行和優化任何給定的目標。

關鍵在於,實體不一定需要實現任意目標的能力,而是需要適應性和連貫性,長期朝著單一目標持續行動。這就是定義真正有能力的普遍智能系統的關鍵。

建立世界模型和提高穩健性

我們已經在使用自回歸Transformer構建世界模型,特別是Omni模型類型。它們的健壯性仍有待商榷,存在幻覺等問題。不過,好消息是根據作者的經驗,規模的增加可以提高健壯性。

人類目前正在大量投資擴大自回歸模型的規模。微軟正在與OpenAI合作進行Project Stargate,山姆·阿爾特曼也在尋求7萬億美元的資金(儘管這可能只是一個吸引眼球的標題)。只要規模不斷增加,這些世界模型的健壯性就應該會提高。

作者認為,我們現有的世界模型已足以構建一個普遍智能的代理。他還認為,通過系統2思維(深入、有意識的推理)與觀察真實世界的互動來進一步提高健壯性,這是一種AI領域尚未見到的範式,但是是提高健壯性的關鍵機制。

雖然LeCun等LLM懷疑者說我們還沒有達到貓的智能水平,但作者認為,只要有自我提升的能力,LLM就可以學習到那些知識。他相信在Transformer和適當的成分下,這是可行的。

作者非常確信,在當前的技術和計算能力下,在Transformer範式內實現系統2思維是可能的。他預計我們將在2-3年內建立有效的系統2思維機制,這將是構建普遍智能代理的關鍵組成部分。

關於實體化,作者也對近期的進展持樂觀態度。他看到機器人學和大型語言模型領域正在融合,未來1-2年內可能會出現令人印象深刻的演示。

懷疑論者、變形金剛和通往AGI的道路

雖然LeCun等LLM懷疑者說我們還沒有達到貓的智能水平,但他們忽略了一個關鍵點。是的,LLM仍缺乏每隻貓都具備的一些基本知識,但只要有自我提升的能力,它們就可以學習到那些知識。在Transformer和適當的成分下,這種自我提升是可行的。

目前沒有公認的方法來實現"系統2思維" - AI系統需要有效實現現實世界目標的長期推理能力。但是,作者非常確信在Transformer範式內,利用現有的技術和計算能力,實現系統2思維是可能的。他預計未來2-3年內會在這方面取得重大進展。

同樣,作者對近期實體化的進展也持樂觀態度。機器人學和LLM領域正在融合,正如最近Digit機器人的令人印象深刻的演示所示。大型語言模型可以將任意傳感器輸入映射到複雜機器人系統的命令。

作者一直在通過智能手機攝像頭與GPT-4互動,測試它對物理世界的知識。雖然不完美,但令人驚訝的是它的能力,作者預計未來1-2年內,我們將看到在部署可以在環境中採取連貫行動並觀察結果的系統方面取得令人印象深刻的進展。

總之,作者認為我們已經解決了構建世界模型的問題,未來2-3年內可以解決系統2思維,1-2年內可以解決實體化,然後將這些能力整合到他描述的循環算法中,這可能需要另外1-2年。他目前對AGI的估計是3-5年,3年內就可以看到類似AGI的東西,之後還會進一步完善以說服更多懷疑者。

系統2思維的重要性

作者強調"系統2思維"在構建普遍智能代理中的關鍵作用。系統2思維指的是進行任意主題深度內省和推理的機制,與依賴快速、自動反應的"系統1思維"(直覺)相對應。

作者認為,要使代理具有普遍智能,它需要具有與環境互動和觀察的方式(實體化)、涵蓋環境的健壯世界模型(直覺/系統1思維)和深度內省及推理的機制(系統2思維)。

具體而言,作者表示,憑借目前可用的世界模型,他認為足以構建一個普遍智能的代理。但關鍵缺失的是系統2思維能力。作者確信,在當前的技術和計算能力下,在Transformer範式內實現有效的系統2思維是可能的。

作者估計,開發一個健壯的系統2思維機制需要2-3年時間。再加上1-2年提高實體化能力,作者預計我們可以在3-5年內看到一個普遍智能、具有實體化的代理的出現。這將是邁向AGI的重要里程碑。

作者強調系統2思維的重要性,指出它是允許代理在長時間內連貫地執行規劃-行動-觀察循環以優化目標的關鍵組成部分。改善這一能力被視為取得重大AGI進展的關鍵重點領域。

具體化和機器人學與語言模型的融合

作者對AI系統實體化的近期進展持樂觀態度。他指出機器人學和大型語言模型(LLM)領域正在融合。

作者提到了一些令人印象深刻的演示,例如結合了GPT-4知識和流暢物理動作的Figure機器人,以及最近發布的類似Boston Dynamics機器人的Unitary H1 AI代理。

作者解釋說,大型全模態模型可以將任意感官輸入映射到可發送給複雜機器人系統的命令。這使得部署可以在環境中執行連貫行動序列並觀察理解結果的系統成為可能。

作者一直在通過智能手機攝像頭與GPT-4互動,測試它對物理世界的知識。雖然不完美,但他發現它的能力令人驚訝,並預計未來1-2年內在這方面會有令人印象深刻的進展。

作者總結說,我們已經基本解決了構建世界模型的問題,未來2-3年內可以實現有效的系統2思維(長期推理)。與此同時,他預計未來1-2年在實體化方面也會有進展。一旦這些關鍵要素到位,將它們整合到之前描述的循環算法中,還需要另外1-2年。

總的來說,作者目前對實現AGI的估計是3-5年,傾向於3年內就能看到類似普遍智能實體代理的東西,他個人會將其視為AGI。不過,他承認可能需要更長時間才能說服更多持懷疑態度的人,如Gary Marcus。

常問問題

根據部落格文章,一般智慧的定義是什麼?

根據作者的估計,我們何時能實現人工通用智慧?

作者說建立一個通用智慧型智能體需要哪三個關鍵組件?

作者說未來1-2年在具身性和系統2思維方面需要哪些進展?

作者如何回應AI懷疑論者Yan LeCun對當前語言模型不如貓智慧的批評?

創造你的人工智慧女友

使用我們的人工智慧女友產生器打造您的理想伴侶