私たちが考えているよりも、AGIはより近づいている:OpenAIの研究者による大胆な3-5年の予測

OpenAIの研究者による大胆な3-5年のArtificial General Intelligence (AGI)のタイムラインに関する予測を探ってみましょう。一般知能の主要な構成要素や、ワールドモデル、システム2思考、身体性の進展に関する洞察を深めていきます。ロボティクスと大規模言語モデルの潜在的な収束が示す、エキサイティングなAGIの未来を発見しましょう。

2025年2月15日

party-gif

OpenAIの研究者による人工汎用知能(AGI)の急速な進歩に関する驚くべき洞察を発見してください。私たちがこのマイルストーンにより近づいているかもしれないことを学びます。一般的に知的なエージェントを構築するために必要な主要なコンポーネントを探求し、今後数年でAGIを達成する可能性のあるタイムラインについて学びましょう。

一般的に知的なエージェントの主要コンポーネント

一般的に知的な実体には、3つの主要な要素の統合が必要です:

  1. 複雑な環境と相互作用し、観察する方法: これは通常、身体性 - 触覚、嗅覚、視覚などの様々な感覚入力を使って自然界と相互作用する能力を意味します。これにより、実体は環境を網羅する堅牢な世界モデルを構築できます。

  2. 任意のトピックについて深い内省を行う仕組み: これは推論、または「ゆっくりした思考」(システム2思考)の能力で、実体が問題について深く考え、解決策を考案することができます。

  3. 環境を網羅する世界モデル: これは、人間の「直感」や「素早い思考」(システム1思考)のように、合理的な精度で迅速な推論を行うことを可能にするメカニズムです。

これら3つの要素があれば、実体に目的を「植え付け」、システム2思考とその世界モデルを組み合わせて、それらの目的を最適化する方法を考案することができます。そして、行動を取り、結果を観察し、世界モデルを更新するというサイクルを長期にわたって繰り返すことができます。

重要なのは、実体が任意の目的を達成する能力を持つ必要はなく、むしろ、時間をかけて単一の目的に向けて一貫して行動する適応性と一貫性を持つことが、真に有能な一般知能システムを定義するものだということです。

世界モデルの構築と頑健性の向上

私たちはすでに、特に Omni モデルタイプの自己回帰型トランスフォーマーを使って、世界モデルを構築しています。それらの堅牢性については議論の余地がありますが、スケールを大きくすれば堅牢性が向上するというのが著者の経験です。

人類は現在、自己回帰型モデルのスケーリングに多額の資本を投入しています。マイクロソフトはOpenAIと共同で「Project Stargate」に多額の資本を投入しており、Sam Altmanは7兆ドルの資本調達を目指しています(これはクリックベイト的なヘッドラインかもしれませんが)。スケールが増え続ければ、これらの世界モデルの堅牢性は向上するはずです。

著者は、現在の世界モデルでも一般知能エージェントを構築するのに十分だと考えています。また、システム2思考(深い、熟考された推論)と現実世界の観察の相互作用により、さらに堅牢性を高めることができると考えています。これまでのAIではあまり見られなかったパラダイムですが、堅牢性向上の重要なメカニズムだと考えられます。

Yan LeCunのようなLLMスケプティックは、私たちはまだ猫の知性すら達成していないと言いますが、著者は、LLMsが自己改善する能力を持てば、その知識を学習できると主張しています。トランスフォーマーと適切な要素があれば、これは実現可能だと考えています。

著者は、現在の技術と計算能力の中で、トランスフォーマーパラダイムの中でシステム2思考を実現できると非常に確信しています。2-3年以内にこの機能を構築できると予想しています。これは一般知能エージェントを構築する上での重要な要素となります。

身体性についても、近い将来の進展に著者は非常に楽観的です。ロボティクスと大規模言語モデルの分野が収束しつつあり、1-2年以内に印象的なデモンストレーションが行われると見ています。

要約すると、著者は世界モデルの構築は解決済み、システム2思考は2-3年で、身体性は1-2年で解決できると考えています。これらの主要な要素が揃えば、先ほど説明したサイクルアルゴリズムに統合するのに1-2年かかると予想しています。AGIの実現時期は3-5年と見積もっており、3年以内に何らかの一般知能を持つ身体化されたエージェントが登場すると考えています。

懐疑論者、トランスフォーマー、そしてAGIへの道

Yan LeCunのようなLLMスケプティックは、私たちはまだ猫の知性すら達成していないと言いますが、これは彼らが見落としている点です。はい、LLMsにはまだ猫が持っている基本的な知識が欠けていますが、自己改善する能力があれば、それらの知識を学習できるはずです。そのような自己改善は、トランスフォーマーと適切な要素があれば実現可能です。

「システム2思考」 - 現実世界で目標を効果的に達成するために AI システムに必要な長期的な推論 - を達成する既知の方法はありません。しかし、著者は、現在の技術と計算能力の中で、トランスフォーマーパラダイムの中でこれを実現できると非常に確信しています。2-3年以内にこの分野で大きな進展が見られると期待しています。

同様に、著者は身体性の近い将来の進展にも楽観的です。ロボティクスと大規模言語モデルの分野が収束しつつあり、最近のDigitロボットのような印象的なデモが見られます。大規模言語モデルは、任意のセンサー入力を洗練されたロボットシステムへの命令にマッピングできます。

著者はスマートフォンのカメラを通してGPT-4の物理世界の知識をテストしています。完璧ではありませんが、驚くほど優れた能力を持っており、1-2年以内に、環境内で一貫した一連の行動を取り、その結果を観察できるシステムの展開に大きな進展が見られると予想しています。

要約すると、著者は世界モデルの構築問題を解決済みと考え、2-3年でシステム2思考、1-2年で身体性の進展が得られれば、それらの機能を統合したサイクルアルゴリズムで一般知能を持つ身体化されたエージェントを実現できると考えています。AGI実現時期は3-5年と見積もっており、3年以内に何らかのAGIが登場し、その後さらに洗練されていくと予想しています。

システム2思考の重要性

著者は、一般知能エージェントを構築する上で、「システム2思考」の重要な役割を強調しています。システム2思考とは、直感的な「システム1思考」とは対照的に、任意のトピックについて深い内省と推論を行う仕組みを指します。

著者は、エージェントが一般知能を持つためには、環境との相互作用と観察の方法(身体性)、環境を網羅する堅牢な世界モデル(直感/システム1思考)、深い内省と推論の仕組み(システム2思考)の3つの要素が必要だと主張しています。

具体的には、現在利用可能な世界モデルでも一般知能エージェントを構築できると考えているが、欠けているのはシステム2思考の機能だと述べています。著者は、現在の技術と計算能力の中で、トランスフォーマーパラダイムの中でシステム2思考を実現できると確信しています。

著者は、堅牢なシステム2思考機能の開発には2-3年かかると見積もっています。身体性の向上に1-2年を要すると合わせて、3-5年以内に一般知能を持つ身体化されたエージェントが登場すると予想しています。これは AGI への大きな一歩となるでしょう。

著者は、システム2思考の重要性を強調しており、長期にわたる目的の最適化のためのプランニング、行動、観察のサイクルを可能にする重要な要素だと指摘しています。この機能の向上がAGI への大きな焦点となると述べています。

ロボティクスと言語モデルの収束における具現化

著者は、AI システムの身体性の近い将来の進展に楽観的です。ロボティクスと大規模言語モデル(LLM)の分野が収束しつつあると述べています。

著者は、GPT-4の知識とスムーズな物理的動作を組み合わせたFigureロボットなどの最近の印象的なデモンストレーションを紹介しています。また、ボストンダイナミクス風のAIエージェントアバターであるUnitary H1の登場にも言及しています。

著者によると、汎用モーダルモデルは任意のセンサー入力を洗練されたロボットシステムへの命令にマッピングできるため、環境内で一貫した一連の行動を取り、その結果を理解できるシステムを展開できるとしています。

著者はスマートフォンのカメラを通してGPT-4の物理世界の知識をテストしており、完璧ではないものの驚くほど優れた能力があると述べ、1-2年以内にこの分野で印象的な進展が見られると予想しています。

著者は要約して、世界モデルの構築問題はほぼ解決済みであり、2-3年でシステム2思考(長期的な推論)を実現でき、並行して1-2年で身体性の進展が得られると述べています。これらの主要な要素が揃えば、先ほど説明したサイクルアルゴリズムに統合するのに1-2年かかると予想しています。

全体として、著者はAGIの実現時期を3-5年と見積もっており、3年以内に何らかの一般知能を持つ身体化されたエージェントが登場すると考えていますが、Yan LeCunのような懐疑的な人物を説得するには、さらに数年かかるかもしれないと述べています。

FAQ