La AGI está más cerca de lo que pensamos: la audaz predicción de 3 a 5 años del investigador de OpenAI

Explora la audaz predicción de 3 a 5 años de un investigador de OpenAI sobre la línea de tiempo de la Inteligencia General Artificial (AGI). Profundiza en los componentes clave de la inteligencia general y en los conocimientos sobre el progreso en los modelos mundiales, el pensamiento del sistema 2 y la incorporación. Descubre la posible convergencia de la robótica y los modelos de lenguaje a gran escala que apuntan a un emocionante futuro de AGI.

24 de febrero de 2025

party-gif

Descubre los notables conocimientos de un investigador de OpenAI sobre los rápidos avances en inteligencia artificial general (AGI) y cómo podríamos estar más cerca de este hito de lo que crees. Explora los componentes clave necesarios para construir un agente generalmente inteligente y aprende sobre la posible línea de tiempo para lograr la AGI en los próximos años.

Los componentes clave de un agente generalmente inteligente

Una entidad generalmente inteligente requiere una síntesis de tres componentes clave:

  1. Una forma de interactuar y observar un entorno complejo: Esto generalmente significa encarnación, la capacidad de percibir e interactuar con el mundo natural utilizando diversos insumos sensoriales como el tacto, el olfato, la vista, etc. Esto permite a la entidad construir un modelo de mundo robusto que cubra el entorno.

  2. Un mecanismo para realizar una introspección profunda sobre temas arbitrarios: Esta es la capacidad de razonamiento o "pensamiento lento" (pensamiento del sistema 2), donde la entidad puede pensar profundamente sobre los problemas y diseñar planes para resolverlos.

  3. Un modelo de mundo que cubra el entorno: Este es el mecanismo que permite a la entidad realizar inferencias rápidas con una precisión razonable, similar a la "intuición" o el "pensamiento rápido" (pensamiento del sistema 1) de los humanos.

Con estos tres componentes, la entidad puede ser "sembrada" con objetivos y usar su pensamiento del sistema 2 en conjunto con su modelo de mundo para idear formas de optimizar esos objetivos. Luego puede tomar acciones, observar los resultados y actualizar su modelo de mundo en consecuencia. Este ciclo se puede repetir durante largos períodos, permitiendo que la entidad ejecute y optimice de manera coherente cualquier objetivo dado.

La clave es que la entidad no necesariamente necesita la capacidad de lograr objetivos arbitrarios, sino más bien la adaptabilidad y coherencia para actuar continuamente hacia un solo objetivo a lo largo del tiempo. Esto es lo que define un sistema verdaderamente capaz y generalmente inteligente.

Construir modelos mundiales y mejorar la robustez

Ya estamos construyendo modelos de mundo con Transformers autoregresivos, la misma arquitectura que hemos estado usando recientemente, particularmente de la variedad de modelos Omni. Qué tan robustos son es objeto de debate, con problemas como las alucinaciones y otros. Sin embargo, la buena noticia es que, según la experiencia del autor, la escala mejora la robustez.

La humanidad está actualmente invirtiendo capital en escalar modelos autoregresivos. Microsoft está invirtiendo mucho capital en el Proyecto Stargate en conjunto con OpenAI, y Sam Altman está buscando $7 billones de dólares en capital (aunque esto probablemente sea un titular sensacionalista). Mientras la escala siga aumentando, la robustez de estos modelos de mundo debería mejorar.

El autor sospecha que los modelos de mundo que tenemos ahora son suficientes para construir un agente generalmente inteligente. También sospecha que la robustez se puede mejorar aún más a través de la interacción del pensamiento del sistema 2 (razonamiento profundo y deliberado) y la observación del mundo real, un paradigma que aún no se ha visto en la IA, pero que es un mecanismo clave para mejorar la robustez.

Escépticos, transformadores y el camino hacia la AGI

Si bien los escépticos de los LLM como Yan LeCun dicen que aún no hemos logrado la inteligencia de un gato, este es el punto que se están perdiendo. Sí, los LLM aún carecen de algunos conocimientos básicos que todo gato tiene, pero podrían aprender ese conocimiento con la capacidad de mejorarse por sí mismos. Tal mejora es posible con Transformers y los ingredientes adecuados.

No hay una forma bien conocida de lograr el "pensamiento del sistema 2", el razonamiento a largo plazo que los sistemas de IA necesitan para lograr efectivamente objetivos en el mundo real. Sin embargo, el autor está bastante seguro de que es posible dentro del paradigma Transformer con la tecnología y la capacidad de cómputo disponibles. Espera ver un progreso significativo en esto en los próximos 2-3 años.

De manera similar, el autor es optimista sobre los avances a corto plazo en la encarnación. Hay una convergencia que está ocurriendo entre los campos de la robótica y los LLM, como se ve en demostraciones impresionantes como el reciente robot Digit. Los modelos de lenguaje grandes pueden mapear entradas sensoriales arbitrarias en comandos para sistemas robóticos sofisticados.

La importancia del pensamiento del sistema 2

El autor enfatiza el papel crítico del "pensamiento del sistema 2" en la construcción de agentes generalmente inteligentes. El pensamiento del sistema 2 se refiere al mecanismo para realizar una introspección y un razonamiento profundos sobre temas arbitrarios, en oposición al "pensamiento del sistema 1" más intuitivo que se basa en respuestas rápidas y automáticas.

El autor argumenta que para que un agente sea generalmente inteligente, necesita tener una forma de interactuar y observar el entorno (encarnación), un modelo de mundo robusto que cubra el entorno (intuición/pensamiento del sistema 1) y un mecanismo para la introspección y el razonamiento profundos (pensamiento del sistema 2).

Específicamente, el autor afirma que con los modelos de mundo actualmente disponibles, sospecha que son suficientes para construir un agente generalmente inteligente. Sin embargo, la pieza clave que falta es la capacidad de pensamiento del sistema 2. El autor está seguro de que es posible lograr un pensamiento efectivo del sistema 2 dentro del paradigma Transformer, dada la tecnología y la capacidad de cómputo actuales.

Encarnación y la convergencia de la robótica y los modelos de lenguaje

El autor expresa optimismo sobre los avances a corto plazo en la encarnación de los sistemas de IA. Señala una convergencia que está ocurriendo entre los campos de la robótica y los modelos de lenguaje grandes (LLM).

El autor destaca demostraciones recientes impresionantes, como el robot Figure que combinó el conocimiento de GPT-4 con movimientos físicos fluidos. También menciona el Unitary H1 recientemente lanzado, un avatar de agente de IA que se asemeja a un robot de Boston Dynamics.

El autor explica que los modelos omnimodales grandes pueden mapear entradas sensoriales arbitrarias en comandos que se pueden enviar a sistemas robóticos sofisticados. Esto permite el despliegue de sistemas que pueden realizar secuencias coherentes de acciones en el entorno y observar y comprender los resultados.

Preguntas más frecuentes