A AGI está mais próxima do que pensamos: Previsão ousada de 3-5 anos do pesquisador da OpenAI

Explore o ousado prognóstico de 3-5 anos de um pesquisador da OpenAI para a linha do tempo da Inteligência Geral Artificial (AGI). Mergulhe nos principais componentes da inteligência geral e insights sobre o progresso em modelos mundiais, pensamento do sistema 2 e incorporação. Descubra a potencial convergência da robótica e dos grandes modelos de linguagem que indicam um futuro emocionante da AGI.

15 de fevereiro de 2025

Descubra os insights notáveis de um pesquisador da OpenAI sobre os rápidos avanços na inteligência artificial geral (AGI) e como pode estar mais perto deste marco do que você imagina. Explore os principais componentes necessários para construir um agente inteligente geral e aprenda sobre a linha do tempo potencial para alcançar a AGI nos próximos anos.

Os Principais Componentes de um Agente Inteligente Geral
Construindo Modelos Mundiais e Melhorando a Robustez
Céticos, Transformadores e o Caminho para a AGI
A Importância do Pensamento do Sistema 2
Incorporação e a Convergência da Robótica e Modelos de Linguagem
Os Cronogramas Otimistas do Pesquisador para a AGI

Os Principais Componentes de um Agente Inteligente Geral

Uma entidade geralmente inteligente requer uma síntese de três componentes-chave:

Uma forma de interagir e observar um ambiente complexo: Isso geralmente significa incorporação - a capacidade de perceber e interagir com o mundo natural usando vários inputs sensoriais como toque, olfato, visão, etc. Isso permite que a entidade construa um modelo robusto do mundo que abrange o ambiente.
Um mecanismo para realizar introspecção profunda sobre tópicos arbitrários: Esta é a capacidade de raciocínio, ou "pensamento lento" (pensamento do sistema 2), onde a entidade pode pensar profundamente sobre problemas e elaborar planos para resolvê-los.
Um modelo de mundo que abrange o ambiente: Este é o mecanismo que permite que a entidade faça inferências rápidas com razoável precisão, semelhante à "intuição" ou "pensamento rápido" (pensamento do sistema 1) humano.

Com esses três componentes, a entidade pode ser "semeada" com objetivos e usar seu pensamento do sistema 2 em conjunto com seu modelo de mundo para idealizar maneiras de otimizar esses objetivos. Ela pode então tomar ações, observar os resultados e atualizar seu modelo de mundo de acordo. Esse ciclo pode ser repetido por longos períodos, permitindo que a entidade execute e otimize de forma coerente qualquer objetivo dado.

A chave é que a entidade não precisa necessariamente ter a capacidade de alcançar objetivos arbitrários, mas sim a adaptabilidade e a coerência para agir continuamente em direção a um único objetivo ao longo do tempo. Isso é o que define um sistema verdadeiramente capaz e geralmente inteligente.

Construindo Modelos Mundiais e Melhorando a Robustez

Já estamos construindo modelos de mundo com Transformers autorregressivos, a mesma arquitetura que vimos recentemente, particularmente do tipo Omni. Quão robustos eles são é algo em debate, com problemas como alucinações e outros. No entanto, a boa notícia é que, na experiência do autor, a escala melhora a robustez.

A humanidade está atualmente investindo capital na escalada de modelos autorregressivos. A Microsoft está investindo muito capital no Projeto Stargate em conjunto com a OpenAI, e Sam Altman está buscando $7 trilhões em capital (embora isso provavelmente seja um título de clique). Desde que a escala continue aumentando, a robustez desses modelos de mundo deve melhorar.

O autor suspeita que os modelos de mundo que temos atualmente são suficientes para construir um agente geralmente inteligente. Ele também suspeita que a robustez pode ser ainda mais aprimorada por meio da interação do pensamento do sistema 2 (raciocínio profundo e deliberado) e da observação do mundo real - um paradigma que ainda não foi visto na IA, mas é um mecanismo-chave para melhorar a robustez.

Enquanto céticos de LLM como Yan LeCun dizem que ainda não atingimos a inteligência de um gato, o autor argumenta que os LLMs poderiam aprender esse conhecimento, dado a capacidade de se autoaprimorar. Ele acredita que isso é viável com Transformers e os ingredientes certos.

Céticos, Transformadores e o Caminho para a AGI

Enquanto céticos de LLM como Yan LeCun dizem que ainda não atingimos a inteligência de um gato, este é o ponto que eles estão perdendo. Sim, os LLMs ainda carecem de alguns conhecimentos básicos que todo gato tem, mas eles poderiam aprender esse conhecimento, dado a capacidade de se autoaprimorar. Tal autoaprimoramento é viável com Transformers e os ingredientes certos.

Não há uma maneira bem conhecida de alcançar o "pensamento do sistema 2" - o raciocínio de longo prazo que os sistemas de IA precisam para atingir efetivamente objetivos no mundo real. No entanto, o autor está bastante confiante de que isso é possível dentro do paradigma Transformer com a tecnologia e o poder computacional disponíveis. Ele espera ver progresso significativo nessa área nos próximos 2-3 anos.

Da mesma forma, o autor é otimista quanto a avanços em um futuro próximo na incorporação. Há uma convergência acontecendo entre os campos da robótica e dos LLMs, como visto em demonstrações impressionantes como o recente robô Digit. Modelos de linguagem podem mapear entradas sensoriais arbitrárias em comandos para sistemas robóticos sofisticados.

O autor tem testado o conhecimento do GPT-4 sobre o mundo físico, interagindo com ele por meio de uma câmera de smartphone. Embora não seja perfeito, ele é surpreendentemente capaz, e o autor suspeita que veremos alguns progressos realmente impressionantes nos próximos 1-2 anos no desenvolvimento de sistemas que possam realizar sequências coerentes de ações no ambiente e observar os resultados.

A Importância do Pensamento do Sistema 2

O autor enfatiza o papel crítico do "pensamento do sistema 2" na construção de agentes geralmente inteligentes. O pensamento do sistema 2 se refere ao mecanismo de realizar introspecção profunda e raciocínio sobre tópicos arbitrários, em oposição ao "pensamento do sistema 1" mais intuitivo, que se baseia em respostas rápidas e automáticas.

O autor argumenta que, para um agente ser geralmente inteligente, ele precisa ter uma forma de interagir e observar o ambiente (incorporação), um modelo de mundo robusto que cubra o ambiente (intuição/pensamento do sistema 1) e um mecanismo para introspecção profunda e raciocínio (pensamento do sistema 2).

Especificamente, o autor afirma que, com os modelos de mundo atualmente disponíveis, ele suspeita que eles são suficientes para construir um agente geralmente inteligente. No entanto, a peça-chave faltante é a capacidade de pensamento do sistema 2. O autor está confiante de que é possível alcançar um pensamento do sistema 2 eficaz dentro do paradigma Transformer, dada a tecnologia e o poder computacional disponíveis atualmente.

O autor estima que o desenvolvimento de um mecanismo robusto de pensamento do sistema 2 levará 2-3 anos. Combinado com 1-2 anos para melhorar as capacidades de incorporação, o autor prevê que poderemos ver o surgimento de um agente geralmente inteligente e incorporado em 3-5 anos. Isso representaria um marco importante no caminho em direção à AGI.

Incorporação e a Convergência da Robótica e Modelos de Linguagem

O autor expressa otimismo sobre os avanços em um futuro próximo na incorporação de sistemas de IA. Ele observa uma convergência acontecendo entre os campos da robótica e dos modelos de linguagem em larga escala (LLMs).

O autor destaca demonstrações recentes impressionantes, como o robô Figure que combinou o conhecimento do GPT-4 com movimentos físicos fluidos. Ele também menciona o Unitary H1 recentemente lançado, um avatar de agente de IA que se assemelha a um robô da Boston Dynamics.

O autor explica que modelos omnimodais em larga escala podem mapear entradas sensoriais arbitrárias em comandos que podem ser enviados a sistemas robóticos sofisticados. Isso permite o desenvolvimento de sistemas que podem realizar sequências coerentes de ações no ambiente e observar e entender os resultados.

O autor tem passado tempo testando o conhecimento do GPT-4 sobre o mundo físico, interagindo com ele por meio de uma câmera de smartphone. Embora não seja perfeito, ele o considera surpreendentemente capaz e suspeita que veremos progressos impressionantes nos próximos 1-2 anos nessa área.

O autor resume que essencialmente resolvemos o problema de construir modelos de mundo e temos 2-3 anos até podermos alcançar um pensamento eficaz do sistema 2 (raciocínio de longo prazo). Paralelamente, ele espera 1-2 anos de progresso na incorporação. Uma vez que esses ingredientes-chave estejam em seu lugar, integrá-los no algoritmo de ciclo descrito anteriormente levará mais 1-2 anos.

Em geral, a estimativa atual do autor para atingir a AGI é de 3-5 anos, com tendência para 3 anos para algo semelhante a um agente incorporado e geralmente inteligente, o que ele pessoalmente consideraria uma AGI. No entanto, ele reconhece que pode levar alguns anos a mais para convencer figuras mais céticas, como Gary Marcus.

Perguntas frequentes

Qual é a definição de inteligência geral de acordo com o post do blog?

De acordo com o autor, quando ele estima que alcançaremos a AGI?

Quais são os três componentes-chave que o autor diz serem necessários para construir um agente de inteligência geral?

O que o autor diz sobre o progresso necessário nos próximos 1-2 anos para a incorporação e o pensamento do sistema 2?

Como o autor responde à crítica do cético de IA Yan LeCun sobre os modelos de linguagem atuais não serem tão inteligentes quanto um gato?

Crie sua namorada com IA

Crie sua companheira ideal com nosso AI Girlfriend Builder