우리가 생각하는 것보다 AGI가 더 가까워졌다: OpenAI 연구원의 과감한 3-5년 예측

OpenAI 연구원의 인공 일반 지능(AGI) 타임라인에 대한 과감한 3-5년 예측을 탐험하세요. 일반 지능의 핵심 구성 요소와 세계 모델, 시스템 2 사고, 구현에 대한 통찰력을 살펴보세요. 로봇공학과 대규모 언어 모델의 잠재적 수렴이 흥미로운 AGI 미래를 암시하는 것을 발견하세요.

2025년 2월 14일

party-gif

OpenAI 연구원의 놀라운 통찰력을 발견하고, 인공 일반 지능(AGI)의 급속한 발전과 우리가 이 이정표에 더 가까워지고 있다는 것을 알아보세요. 일반적으로 지능적인 에이전트를 구축하는 데 필요한 핵심 구성 요소를 탐색하고 향후 몇 년 내에 AGI를 달성할 잠재적인 시간 계획에 대해 알아보세요.

일반적으로 지능적인 에이전트의 핵심 구성 요소

일반적으로 지능적인 실체를 위해서는 세 가지 핵심 구성 요소의 종합이 필요합니다:

  1. 복잡한 환경과 상호 작용하고 관찰할 수 있는 방법: 이는 일반적으로 구현을 의미하는데, 즉 촉각, 후각, 시각 등 다양한 감각 입력을 사용하여 자연 세계를 인식하고 상호 작용할 수 있는 능력입니다. 이를 통해 실체는 환경에 대한 견고한 세계 모델을 구축할 수 있습니다.

  2. 임의의 주제에 대한 깊이 있는 내성을 수행할 수 있는 메커니즘: 이는 추론 능력, 즉 "느린 사고"(시스템 2 사고)의 능력으로, 실체가 문제에 대해 깊이 생각하고 해결책을 고안할 수 있는 능력입니다.

  3. 환경을 다루는 세계 모델: 이는 실체가 합리적인 정확도로 빠른 추론을 수행할 수 있게 해주는 메커니즘으로, 인간의 "직관" 또는 "빠른 사고"(시스템 1 사고)와 유사합니다.

세계 모델 구축 및 강건성 향상

우리는 이미 자기회귀적 변환기, 특히 Omni 모델 아키텍처를 사용하여 세계 모델을 구축하고 있습니다. 이들의 견고성은 환각 및 기타 문제로 인해 논란의 여지가 있습니다. 그러나 저자의 경험상 규모를 늘리면 견고성이 향상됩니다.

인류는 현재 자기회귀적 모델의 규모를 확장하는 데 자본을 투자하고 있습니다. 마이크로소프트는 OpenAI와 함께 Project Stargate에 많은 자본을 투자하고 있으며, 샘 알트만은 7조 달러의 자본을 모집하고 있습니다(이는 클릭베이트 헤드라인일 가능성이 높습니다). 규모가 계속 증가하면 이러한 세계 모델의 견고성도 향상될 것입니다.

저자는 현재 우리가 가진 세계 모델만으로도 일반적으로 지능적인 에이전트를 구축할 수 있다고 생각합니다. 또한 시스템 2 사고(깊이 있는 의도적 추론)와 실제 세계 관찰의 상호 작용을 통해 견고성을 더 향상시킬 수 있다고 믿습니다.

회의론자, 변환기 및 AGI로의 경로

얀 르쿤과 같은 LLM 회의론자들은 우리가 아직 고양이 수준의 지능을 달성하지 못했다고 말하지만, 저자는 LLM이 자기 개선 능력을 갖추면 그러한 지식을 배울 수 있다고 주장합니다. 그는 이것이 변환기와 적절한 구성 요소를 사용하면 가능하다고 믿습니다.

저자는 현재 사용 가능한 기술과 컴퓨팅 능력으로도 변환기 패러다임 내에서 시스템 2 사고를 달성할 수 있다는 것에 상당한 확신을 가지고 있습니다. 그는 2-3년 내에 효과적인 시스템 2 사고 메커니즘을 구축할 수 있을 것으로 예상합니다.

구현 분야에서도 저자는 단기적인 발전에 대해 상당한 낙관적 견해를 가지고 있습니다. 그는 로봇공학과 대규모 언어 모델 분야 간의 융합이 일어나고 있으며, 이로 인해 향후 1-2년 내에 인상적인 시연이 가능할 것으로 보고 있습니다.

System 2 사고의 중요성

얀 르쿤과 같은 LLM 회의론자들은 우리가 아직 고양이 수준의 지능을 달성하지 못했다고 말하지만, 이는 그들이 간과하고 있는 점입니다. 네, LLM은 여전히 모든 고양이가 가진 기본적인 지식이 부족하지만, 자기 개선 능력을 갖추면 그러한 지식을 배울 수 있습니다. 이러한 자기 개선은 변환기와 적절한 구성 요소를 사용하면 가능합니다.

"시스템 2 사고" - 즉, 실세계에서 목표를 효과적으로 달성하기 위해 필요한 장기적 추론 능력 - 을 달성하는 잘 알려진 방법은 없습니다. 그러나 저자는 현재 사용 가능한 기술과 컴퓨팅 능력으로도 변환기 패러다임 내에서 이를 달성할 수 있다는 것에 상당한 확신을 가지고 있습니다. 그는 향후 2-3년 내에 이 분야에서 상당한 진전이 있을 것으로 예상합니다.

로봇공학과 언어 모델의 수렴: 구현

저자는 구현 분야의 단기적 발전에 대해 낙관적입니다. 로봇공학과 LLM 분야 간의 융합이 일어나고 있으며, 이는 최근 Digit 로봇과 같은 인상적인 시연으로 나타나고 있습니다. 대규모 언어 모델은 임의의 센서 입력을 정교한 로봇 시스템의 명령어로 매핑할 수 있습니다.

저자는 스마트폰 카메라를 통해 GPT-4의 물리적 세계에 대한 지식을 테스트해 보고 있습니다. 완벽하지는 않지만 놀랍도록 능력이 있으며, 향후 1-2년 내에 환경에서 일관된 일련의 행동을 취하고 결과를 관찰할 수 있는 시스템을 구현하는 데 상당한 진전이 있을 것으로 예상합니다.

AGI에 대한 연구자의 낙관적인 시간 계획

저자는 일반적으로 지능적인 에이전트를 구축하는 데 있어 "시스템 2 사고"의 핵심적인 역할을 강조합니다. 시스템 2 사고는 임의의 주제에 대한 깊이 있는 내성과 추론을 수행하는 메커니즘을 말하며, 이는 직관적인 "시스템 1 사고"와 대비됩니다.

저자는 에이전트가 일반적으로 지능적이 되기 위해서는 환경과 상호 작용하고 관찰할 수 있는 방법(구현), 환경을 다루는 견고한 세계 모델(직관/시스템 1 사고), 그리고 깊이 있는 내성과 추론을 수행할 수 있는 메커니즘(시스템 2 사고)이 필요하다고 주장합니다.

저자는 현재 사용 가능한 기술과 컴퓨팅 능력으로도 변환기 패러다임 내에서 효과적인 시스템 2 사고 기능을 달성할 수 있다는 것에 상당한 확신을 가지고 있습니다. 그는 이 기능을 개발하는 데 2-3년이 걸릴 것으로 예상하고 있습니다.

저자는 AI 시스템의 구현에 대한 단기적 발전에 대해 낙관적입니다. 그는 로봇공학과 대규모 언어 모델(LLM) 분야 간의 융합이 일어나고 있다고 지적합니다.

저자는 GPT-4의 지식과 유창한 물리적 움직임을 결합한 Figure 로봇과 같은 최근 인상적인 시연을 강조합니다. 또한 보스턴 다이내믹스 로봇과 유사한 Unitary H1이라는 AI 에이전트 아바타의 출시도 언급합니다.

저자는 대규모 옴니모달 모델이 임의의 감각 입력을 정교한 로봇 시스템에 대한 명령어로 매핑할 수 있다고 설명합니다. 이를 통해 환경에서 일관된 일련의 행동을 수행하고 결과를 관찰 및 이해할 수 있는 시스템을 배치할 수 있습니다.

저자는 스마트폰 카메라를 통해 GPT-4의 물리적 세계에 대한 지식을 테스트해 보고 있으며, 완벽하지는 않지만 놀랍도록 능력이 있다고 말합니다. 그는 향후 1-2년 내에 이 분야에서 인상적인 진전이 있을 것으로 예상합니다.

자주하는 질문