我们离人工通用智能更近了:OpenAI研究员的3-5年大胆预测

探索OpenAI研究员对人工通用智能(AGI)时间线的大胆3-5年预测。深入了解一般智能的关键组成部分,以及对世界模型、系统2思维和具身性进展的见解。发现机器人和大型语言模型的潜在融合,预示着令人兴奋的AGI未来。

2025年2月21日

party-gif

探索来自 OpenAI 研究员关于人工通用智能 (AGI) 快速进步的卓越见解,以及我们可能比您所想更接近这一里程碑。探索构建通用智能代理所需的关键组件,并了解在未来几年内实现 AGI 的潜在时间线。

通常智能代理的关键组件

要构建一个通用智能实体,需要三个关键组件的综合:

  1. 与复杂环境互动和观察的方式:这通常意味着具有实体化 - 能够使用触摸、嗅觉、视觉等各种感官输入来感知和与自然世界互动。这使实体能够建立涵盖环境的健壮世界模型。

  2. 执行任意主题深度内省的机制:这是推理或"缓慢思考"(系统2思维)的能力,实体可以深入思考问题并制定解决方案的计划。

  3. 涵盖环境的世界模型:这是允许实体进行快速推理并达到合理准确性的机制,类似于人类的"直觉"或"快速思维"(系统1思维)。

有了这三个组件,实体就可以被"播种"目标,并利用其系统2思维与世界模型来构思优化这些目标的方法。它可以采取行动,观察结果,并相应更新其世界模型。这个循环可以重复很长时间,使实体能够连贯地执行并优化任何给定的目标。

关键在于,实体不一定需要实现任意目标的能力,而是具有适应性和连贯性,能够长期持续地朝着单一目标行动。这就是定义真正有能力的通用智能系统的关键所在。

构建世界模型和提高鲁棒性

我们已经在使用自回归Transformer构建世界模型,特别是Omni模型架构。它们的健壮性还有待讨论,存在幻觉等问题。但好消息是,根据作者的经验,规模越大,健壮性就越强。

人类目前正在大量投资扩展自回归模型。微软正在与OpenAI合作进行Project Stargate,Sam Altman也在寻求7万亿美元的资金(尽管这可能只是一个吸引眼球的标题)。只要规模不断增加,这些世界模型的健壮性就会提高。

作者认为,我们现有的世界模型已经足以构建一个通用智能代理。他还认为,通过系统2思维(深入、有意识的推理)与观察真实世界的互动来进一步提高健壮性,这是一种AI领域尚未出现的范式,但是是提高健壮性的关键机制。

尽管像Yan LeCun这样的LLM怀疑者说我们还没有达到猫的智能水平,但作者认为,给予LLM自我提升的能力,它们就可以学习到那些知识。他相信,利用Transformer和合适的成分,这是可以实现的。

作者非常确信,在当前的技术和计算能力下,在Transformer范式内实现系统2思维是可能的。他预计我们将在2-3年内建立一个有效的系统2思维机制,这将是构建通用智能代理的关键组成部分。

关于实体化,作者也对近期的进展持乐观态度。他看到机器人学和大型语言模型两个领域正在融合,这可能在未来1-2年内带来令人印象深刻的演示。

总之,作者认为我们已经解决了构建世界模型的问题,接下来2-3年内解决系统2思维,1-2年内解决实体化。一旦这些关键要素就位,将它们整合到他描述的循环算法中,还需要另外1-2年时间。他目前对AGI的估计是3-5年,倾向于3年能够实现类似通用智能的实体代理。

怀疑论者、变革者和通向AGI的道路

尽管像Yan LeCun这样的LLM怀疑者说我们还没有达到猫的智能水平,但这正是他们所忽视的关键点。是的,LLM确实缺乏每只猫都拥有的一些基本知识,但如果给予它们自我提升的能力,它们就可以学习到那些知识。利用Transformer和合适的成分,这种自我提升是可以实现的。

目前还没有一个广为人知的方法来实现"系统2思维" - AI系统在现实世界中有效实现目标所需的长期推理能力。然而,作者非常确信,在当前的技术和计算能力下,在Transformer范式内实现这一点是可能的。他预计在未来2-3年内会在这方面取得重大进展。

同样,作者对近期实体化方面的进展也持乐观态度。机器人学和LLM两个领域正在融合,正如最近Digit机器人等令人印象深刻的演示所示。大型语言模型可以将任意传感器输入映射为复杂机器人系统的命令。

作者一直在通过智能手机摄像头与GPT-4互动,测试它对物理世界的知识。虽然还不完美,但已经令人惊讶地出色,作者预计我们将在未来1-2年内看到在部署可以在环境中采取连贯行动并观察结果的系统方面取得令人印象深刻的进展。

总之,作者认为我们已经解决了构建世界模型的问题,接下来2-3年内解决系统2思维,1-2年内解决实体化,就可以将这些能力整合到一个循环算法中,构建一个通用智能的实体代理。他目前对AGI的估计是3-5年,3年内就能看到类似AGI的初版,之后还会进一步完善以说服更多怀疑者。

系统2思维的重要性

作者强调"系统2思维"在构建通用智能代理中的关键作用。系统2思维指的是执行任意主题深度内省和推理的机制,与依赖快速、自动反应的"系统1思维"(直觉)相对应。

作者认为,要使一个代理具有通用智能,它需要具有与环境互动和观察的方式(实体化)、涵盖环境的健壮世界模型(直觉/系统1思维),以及执行深度内省和推理的机制(系统2思维)。

具体来说,作者表示,凭借目前可用的世界模型,他认为已经足以构建一个通用智能代理。但关键缺失的是系统2思维能力。作者确信,在当前的技术和计算能力下,在Transformer范式内实现有效的系统2思维是可能的。

作者估计,开发一个健壮的系统2思维机制需要2-3年时间。再加上1-2年提高实体化能力,作者预计我们可以在3-5年内看到一个通用智能、实体化代理的出现,这将是向AGI迈出的重要一步。

作者强调系统2思维的重要性,指出它是允许代理能够长期执行规划-行动-观察循环并优化目标的关键组件。改善这一能力被视为取得重大AGI进展的关键重点领域。

具身性和机器人学与语言模型的融合

作者对AI系统实体化的近期进展持乐观态度。他指出机器人学和大型语言模型(LLM)两个领域正在融合。

作者提到了一些最近令人印象深刻的演示,例如结合了GPT-4知识和流畅物理动作的Figure机器人,以及最近发布的类似Boston Dynamics机器人的Unitary H1 AI代理。

作者解释说,大型全模态模型可以将任意传感器输入映射为可发送到复杂机器人系统的命令。这使得部署可以在环境中执行连贯行动并观察理解结果的系统成为可能。

作者一直在通过智能手机摄像头与GPT-4互动,测试它对物理世界的知识。虽然还不完美,但他发现它已经出奇地出色,并预计我们将在未来1-2年内在这个领域取得令人印象深刻的进展。

作者总结说,我们已经基本解决了构建世界模型的问题,接下来2-3年内就可以实现有效的系统2思维(长期推理)。与此同时,他预计在1-2年内在实体化方面也会取得进展。一旦这些关键要素就位,将它们整合到之前描述的循环算法中,还需要另外1-2年时间。

总的来说,作者目前对实现AGI的估计是3-5年,倾向于3年能够实现类似通用智能的实体代理,这在他看来就是AGI。但他承认可能还需要一些时间来说服更加怀疑的人物,如Gary Marcus。

研究人员对AGI的乐观时间线

研究人员认为,构建通用智能代理所需的关键组件已经触手可及。他概括了通用智能的三个关键要素:

  1. 与复杂环境互动和观察的方式,通常通过实体化和感知、与自然世界互动的能力实现。
  2. 涵盖环境的健壮世界模型,允许进行快速准确的推理 - 人类所说的"直觉"或"系统1思维"。
  3. 执行任意主题深度内省和推理的机制 - "系统2思维"或有意识的、深入的思考。

研究人员认为,有了这三个组件,就有可能构建一个能够连贯地执行规划-行动-观察-更新世界模型的循环,以优化给定目标的通用智能代理。

他认为,当前大型语言模型构建的世界模型已经足以构建这样的通用智能代理。剩下的关键挑战是:

  1. 在Transformer范式内开发有效的"系统2思维"能力,研究人员确信这可以在未来2-3年内实现。
  2. 与物理世界的实体交互,他预计在未来1-2年内在这方面会有重大进展。

通过结合这些进步,研究人员估计我们可以在3-5年内看到"实体化、通用智能代理"的出现,他个人会将其称为AGI。他倾向于3年的时间线,但也指出可能需要更长时间来说服更多持怀疑态度的人。

总的来说,研究人员对通向AGI的道路持乐观态度,其核心是在未来3-5年内开发健壮的世界模型、深入推理和物理实体化。这一时间线与其他一些著名预测(如Anthropic联合创始人Dario Amodei预测2027年实现AGI)相一致。

FAQ