A AGI está mais próxima do que pensamos: Previsão ousada de 3-5 anos do pesquisador da OpenAI

Explore o ousado prognóstico de 3-5 anos de um pesquisador da OpenAI para a linha do tempo da Inteligência Geral Artificial (AGI). Mergulhe nos principais componentes da inteligência geral e insights sobre o progresso em modelos mundiais, pensamento do sistema 2 e incorporação. Descubra a potencial convergência da robótica e dos grandes modelos de linguagem que indicam um futuro emocionante da AGI.

15 de fevereiro de 2025

party-gif

Descubra os insights notáveis de um pesquisador da OpenAI sobre os rápidos avanços na inteligência artificial geral (AGI) e como pode estar mais perto deste marco do que você imagina. Explore os principais componentes necessários para construir um agente inteligente geral e aprenda sobre a linha do tempo potencial para alcançar a AGI nos próximos anos.

Os Principais Componentes de um Agente Inteligente Geral

Uma entidade geralmente inteligente requer uma síntese de três componentes-chave:

  1. Uma forma de interagir e observar um ambiente complexo: Isso geralmente significa incorporação - a capacidade de perceber e interagir com o mundo natural usando vários inputs sensoriais como toque, olfato, visão, etc. Isso permite que a entidade construa um modelo robusto do mundo que abrange o ambiente.

  2. Um mecanismo para realizar introspecção profunda sobre tópicos arbitrários: Esta é a capacidade de raciocínio, ou "pensamento lento" (pensamento do sistema 2), onde a entidade pode pensar profundamente sobre problemas e elaborar planos para resolvê-los.

  3. Um modelo de mundo que abrange o ambiente: Este é o mecanismo que permite que a entidade faça inferências rápidas com razoável precisão, semelhante à "intuição" ou "pensamento rápido" (pensamento do sistema 1) humano.

Com esses três componentes, a entidade pode ser "semeada" com objetivos e usar seu pensamento do sistema 2 em conjunto com seu modelo de mundo para idealizar maneiras de otimizar esses objetivos. Ela pode então tomar ações, observar os resultados e atualizar seu modelo de mundo de acordo. Esse ciclo pode ser repetido por longos períodos, permitindo que a entidade execute e otimize de forma coerente qualquer objetivo dado.

A chave é que a entidade não precisa necessariamente ter a capacidade de alcançar objetivos arbitrários, mas sim a adaptabilidade e a coerência para agir continuamente em direção a um único objetivo ao longo do tempo. Isso é o que define um sistema verdadeiramente capaz e geralmente inteligente.

Construindo Modelos Mundiais e Melhorando a Robustez

Já estamos construindo modelos de mundo com Transformers autorregressivos, a mesma arquitetura que vimos recentemente, particularmente do tipo Omni. Quão robustos eles são é algo em debate, com problemas como alucinações e outros. No entanto, a boa notícia é que, na experiência do autor, a escala melhora a robustez.

A humanidade está atualmente investindo capital na escalada de modelos autorregressivos. A Microsoft está investindo muito capital no Projeto Stargate em conjunto com a OpenAI, e Sam Altman está buscando $7 trilhões em capital (embora isso provavelmente seja um título de clique). Desde que a escala continue aumentando, a robustez desses modelos de mundo deve melhorar.

O autor suspeita que os modelos de mundo que temos atualmente são suficientes para construir um agente geralmente inteligente. Ele também suspeita que a robustez pode ser ainda mais aprimorada por meio da interação do pensamento do sistema 2 (raciocínio profundo e deliberado) e da observação do mundo real - um paradigma que ainda não foi visto na IA, mas é um mecanismo-chave para melhorar a robustez.

Enquanto céticos de LLM como Yan LeCun dizem que ainda não atingimos a inteligência de um gato, o autor argumenta que os LLMs poderiam aprender esse conhecimento, dado a capacidade de se autoaprimorar. Ele acredita que isso é viável com Transformers e os ingredientes certos.

Céticos, Transformadores e o Caminho para a AGI

Enquanto céticos de LLM como Yan LeCun dizem que ainda não atingimos a inteligência de um gato, este é o ponto que eles estão perdendo. Sim, os LLMs ainda carecem de alguns conhecimentos básicos que todo gato tem, mas eles poderiam aprender esse conhecimento, dado a capacidade de se autoaprimorar. Tal autoaprimoramento é viável com Transformers e os ingredientes certos.

Não há uma maneira bem conhecida de alcançar o "pensamento do sistema 2" - o raciocínio de longo prazo que os sistemas de IA precisam para atingir efetivamente objetivos no mundo real. No entanto, o autor está bastante confiante de que isso é possível dentro do paradigma Transformer com a tecnologia e o poder computacional disponíveis. Ele espera ver progresso significativo nessa área nos próximos 2-3 anos.

Da mesma forma, o autor é otimista quanto a avanços em um futuro próximo na incorporação. Há uma convergência acontecendo entre os campos da robótica e dos LLMs, como visto em demonstrações impressionantes como o recente robô Digit. Modelos de linguagem podem mapear entradas sensoriais arbitrárias em comandos para sistemas robóticos sofisticados.

O autor tem testado o conhecimento do GPT-4 sobre o mundo físico, interagindo com ele por meio de uma câmera de smartphone. Embora não seja perfeito, ele é surpreendentemente capaz, e o autor suspeita que veremos alguns progressos realmente impressionantes nos próximos 1-2 anos no desenvolvimento de sistemas que possam realizar sequências coerentes de ações no ambiente e observar os resultados.

A Importância do Pensamento do Sistema 2

O autor enfatiza o papel crítico do "pensamento do sistema 2" na construção de agentes geralmente inteligentes. O pensamento do sistema 2 se refere ao mecanismo de realizar introspecção profunda e raciocínio sobre tópicos arbitrários, em oposição ao "pensamento do sistema 1" mais intuitivo, que se baseia em respostas rápidas e automáticas.

O autor argumenta que, para um agente ser geralmente inteligente, ele precisa ter uma forma de interagir e observar o ambiente (incorporação), um modelo de mundo robusto que cubra o ambiente (intuição/pensamento do sistema 1) e um mecanismo para introspecção profunda e raciocínio (pensamento do sistema 2).

Especificamente, o autor afirma que, com os modelos de mundo atualmente disponíveis, ele suspeita que eles são suficientes para construir um agente geralmente inteligente. No entanto, a peça-chave faltante é a capacidade de pensamento do sistema 2. O autor está confiante de que é possível alcançar um pensamento do sistema 2 eficaz dentro do paradigma Transformer, dada a tecnologia e o poder computacional disponíveis atualmente.

O autor estima que o desenvolvimento de um mecanismo robusto de pensamento do sistema 2 levará 2-3 anos. Combinado com 1-2 anos para melhorar as capacidades de incorporação, o autor prevê que poderemos ver o surgimento de um agente geralmente inteligente e incorporado em 3-5 anos. Isso representaria um marco importante no caminho em direção à AGI.

Incorporação e a Convergência da Robótica e Modelos de Linguagem

O autor expressa otimismo sobre os avanços em um futuro próximo na incorporação de sistemas de IA. Ele observa uma convergência acontecendo entre os campos da robótica e dos modelos de linguagem em larga escala (LLMs).

O autor destaca demonstrações recentes impressionantes, como o robô Figure que combinou o conhecimento do GPT-4 com movimentos físicos fluidos. Ele também menciona o Unitary H1 recentemente lançado, um avatar de agente de IA que se assemelha a um robô da Boston Dynamics.

O autor explica que modelos omnimodais em larga escala podem mapear entradas sensoriais arbitrárias em comandos que podem ser enviados a sistemas robóticos sofisticados. Isso permite o desenvolvimento de sistemas que podem realizar sequências coerentes de ações no ambiente e observar e entender os resultados.

O autor tem passado tempo testando o conhecimento do GPT-4 sobre o mundo físico, interagindo com ele por meio de uma câmera de smartphone. Embora não seja perfeito, ele o considera surpreendentemente capaz e suspeita que veremos progressos impressionantes nos próximos 1-2 anos nessa área.

O autor resume que essencialmente resolvemos o problema de construir modelos de mundo e temos 2-3 anos até podermos alcançar um pensamento eficaz do sistema 2 (raciocínio de longo prazo). Paralelamente, ele espera 1-2 anos de progresso na incorporação. Uma vez que esses ingredientes-chave estejam em seu lugar, integrá-los no algoritmo de ciclo descrito anteriormente levará mais 1-2 anos.

Em geral, a estimativa atual do autor para atingir a AGI é de 3-5 anos, com tendência para 3 anos para algo semelhante a um agente incorporado e geralmente inteligente, o que ele pessoalmente consideraria uma AGI. No entanto, ele reconhece que pode levar alguns anos a mais para convencer figuras mais céticas, como Gary Marcus.

Perguntas frequentes