Cómo la física inspira los modelos de IA generativa de vanguardia

Descubre cómo la física inspira los modelos de IA generativa de vanguardia, desde los PGM basados en electrostática hasta los modelos de difusión inspirados en la termodinámica. Obtén información sobre los últimos avances que combinan la física y la IA para la generación de imágenes revolucionaria.

14 de febrero de 2025

party-gif

Descubre cómo los modelos de IA de vanguardia están aprovechando los principios de la física para generar datos novedosos y cautivadores. Explora la fascinante intersección de la electrostática, la termodinámica y los últimos avances en IA generativa. Esta entrada de blog ofrece una inmersión profunda en la ciencia detrás de estas técnicas innovadoras, equipándote con el conocimiento para comprender el futuro de la creación de contenido impulsada por IA.

Cómo la física inspira los modelos de IA generativa

Los modelos de IA generativa han logrado avances significativos al inspirarse en los principios de la física. Dos ejemplos destacados son los Modelos Generativos de Píxeles (PGM) y los Modelos de Difusión.

Modelos Generativos de Píxeles (PGM): Los PGM tratan los puntos de datos como electrones y explotan el campo eléctrico generado por estos "cargas" para mapear la complicada distribución de datos a una distribución más simple y circular. Al aprender el aproximador del campo eléctrico, los PGM pueden generar nuevas muestras de datos al muestrear de la distribución simple y viajar hacia atrás a lo largo de las líneas del campo eléctrico.

Modelos de Difusión: Los modelos de difusión se inspiran en el concepto de termodinámica y el movimiento aleatorio de los átomos. Ven los píxeles de una imagen como átomos y simulan su proceso de difusión. Al aprender cómo se difunden los átomos (píxeles), los modelos de difusión pueden generar nuevas imágenes partiendo de ruido gaussiano y revirtiendo el proceso de difusión para obtener muestras novedosas de la distribución de datos.

Modelos generativos de flujo de Pan (PGM) y electrostática

Los PGM tratan los puntos de datos como electrones y explotan el campo eléctrico que generan estos puntos de datos. Considera una distribución de datos bidimensional, como la altura y el peso de los humanos. Imagina esta distribución de datos como una distribución de carga, donde los puntos con mayor probabilidad tienen más carga eléctrica.

El campo eléctrico de esta distribución de carga sería complicado y tendría una alta curvatura alrededor de la propia distribución. Sin embargo, a medida que nos alejamos, el campo eléctrico se vuelve más regular. A distancias muy lejanas, la distribución de carga parecería una carga puntual, y el campo eléctrico sería simple, apuntando radialmente hacia afuera en todas las direcciones.

La idea clave es que el complicado campo eléctrico alrededor de la distribución de carga debe conectarse sin problemas a esta distribución radial a distancias lejanas. Esto proporciona un mapeo de la complicada distribución de datos a una distribución simple y circular.

Para generar datos, simplemente podemos generar datos esféricos simples y luego viajar hacia atrás a lo largo de las líneas del campo eléctrico para obtener nuevos puntos de datos de la distribución de datos original. En la práctica, aprendemos un campo eléctrico aproximado utilizando una U-Net que toma un vector de entrada para un punto en el espacio y devuelve el vector de campo eléctrico en ese punto.

Este enfoque, conocido como PGM, se introdujo a finales del año pasado, y un sucesor, PGM++, se publicó más recientemente. Los autores argumentan que los PGM ofrecen beneficios sobre los modelos de difusión, que impulsan a Stable Diffusion y Dolly.

Modelos de difusión y termodinámica

Los modelos de difusión, que impulsan modelos como Stable Diffusion, se inspiran en los principios de la termodinámica. La idea clave es que el movimiento aleatorio de los átomos, tal como lo describe la termodinámica, se puede mapear a la difusión aleatoria de los valores de los píxeles en una imagen.

La termodinámica ve a los átomos como monedas, donde el comportamiento macroscópico de un gran conjunto de monedas (átomos) puede ser muy diferente del comportamiento microscópico de las monedas individuales. Por ejemplo, la probabilidad de que todas las monedas caigan con la cara hacia arriba es mucho menor que la probabilidad de que el 50% de las monedas caigan con la cara hacia arriba, a pesar de que cada moneda tiene un 50% de probabilidad individualmente.

De manera similar, en los modelos de difusión, los valores de los píxeles en una imagen se tratan como átomos que realizan paseos aleatorios. Así como el movimiento aleatorio del colorante alimentario en el agua conduce a una distribución uniforme, el movimiento aleatorio de los píxeles conduce al ruido gaussiano, que se puede considerar como el equivalente de la imagen a un color uniforme.

Al aprender cómo funciona este proceso de difusión para un conjunto de datos de imágenes en particular, los modelos de difusión pueden luego revertir el proceso. Pueden comenzar con ruido gaussiano y gradualmente "deshacer" la difusión para generar imágenes nuevas y realistas. Esto es análogo a tomar una imagen con color aleatorio y rastrear hacia atrás el proceso de difusión para recuperar la imagen original.

Los detalles matemáticos de cómo funciona esto se pueden explorar más a fondo en la introducción a los modelos de difusión en el blog. Pero la idea clave es que los principios de la termodinámica y los paseos aleatorios proporcionan un marco poderoso para construir modelos de IA generativa de vanguardia.

Conclusión

Los distintos campos de la física y la IA a menudo se han cruzado, con conceptos importantes de las matemáticas y la física impulsando el progreso en la IA. En este video, exploramos cómo la IA se ha inspirado en los campos de la electrostática y la termodinámica para crear modelos de IA generativa de vanguardia.

Los modelos de IA generativa funcionan muestreando de una distribución de datos, lo cual puede ser una tarea compleja para datos de alta dimensionalidad como las imágenes. Para superar este desafío, los investigadores de IA han recurrido a principios físicos para mapear la complicada distribución de datos a una más simple.

En el caso de los Modelos Generativos Plug-and-Play (PGM), el campo eléctrico generado por los puntos de datos, tratados como partículas cargadas, proporciona un mapeo de la compleja distribución de datos a una distribución más simple y circular. Al aprender este campo eléctrico, los PGM pueden generar nuevos datos muestreando de la distribución simple y viajando a lo largo de las líneas del campo eléctrico.

De manera similar, los modelos de difusión, que impulsan modelos como Stable Diffusion, explotan el concepto de difusión de la termodinámica. Así como el movimiento aleatorio de los átomos conduce a una distribución gaussiana, los modelos de difusión ven a los píxeles de una imagen como "átomos" que realizan paseos aleatorios, lo que les permite generar nuevas imágenes partiendo de ruido gaussiano y revirtiendo el proceso de difusión.

Estos ejemplos demuestran cómo la interacción entre la física y la IA puede dar lugar a modelos generativos poderosos e innovadores. Al comprender y aprovechar los principios de la electrostática y la termodinámica, los investigadores han encontrado nuevas formas de abordar los desafíos de la generación de datos de alta dimensionalidad, allanando el camino para futuros avances en el campo de la IA.

Preguntas más frecuentes