Como a Física Inspira os Modelos de IA Generativa de Ponta

Descubra como a física inspira modelos de IA generativa de ponta, desde os PGMs baseados em eletrostática até os modelos de difusão inspirados na termodinâmica. Obtenha insights sobre os últimos avanços que combinam física e IA para a geração de imagens revolucionária.

20 de fevereiro de 2025

party-gif

Descubra como os modelos de IA de ponta estão aproveitando os princípios da física para gerar dados novos e cativantes. Explore a fascinante interseção da eletrostática, da termodinâmica e dos últimos avanços na IA generativa. Este post de blog oferece um mergulho profundo na ciência por trás dessas técnicas inovadoras, equipando você com o conhecimento para entender o futuro da criação de conteúdo impulsionada por IA.

Como a Física Inspira Modelos de IA Generativa

Os modelos de IA generativa fizeram avanços significativos ao se inspirar nos princípios da física. Dois exemplos proeminentes são os Modelos Geradores de Pixels (PGMs) e os Modelos de Difusão.

Modelos Geradores de Pixels (PGMs): Os PGMs tratam os pontos de dados como elétrons e exploram o campo elétrico gerado por esses "cargas" para mapear a distribuição de dados complicada para uma distribuição circular mais simples. Ao aprender o aproximador do campo elétrico, os PGMs podem gerar novas amostras de dados amostrando da distribuição simples e viajando de volta ao longo das linhas do campo elétrico.

Modelos de Difusão: Os modelos de difusão se inspiram no conceito de termodinâmica e no movimento aleatório de átomos. Eles veem os pixels em uma imagem como átomos e simulam seu processo de difusão. Ao aprender como os átomos (pixels) se difundem, os modelos de difusão podem gerar novas imagens começando com ruído gaussiano e revertendo o processo de difusão para obter amostras inéditas da distribuição de dados.

Modelos Generativos de Fluxo de Pan (PGMs) e Eletrostática

Os PGMs tratam os pontos de dados como elétrons e exploram o campo elétrico que esses pontos de dados geram. Considere uma distribuição de dados bidimensional, como a altura e o peso de seres humanos. Imagine essa distribuição de dados como uma distribuição de carga, onde os pontos com maior probabilidade têm mais carga elétrica.

O campo elétrico dessa distribuição de carga seria complicado e teria alta curvatura em torno da própria distribuição. No entanto, à medida que nos afastamos, o campo elétrico se torna mais regular. A grandes distâncias, a distribuição de carga pareceria um ponto de carga, e o campo elétrico seria simples, apontando radialmente para fora em todas as direções.

A principal percepção é que o campo elétrico complicado em torno da distribuição de carga deve se conectar suavemente a essa distribuição radial a grandes distâncias. Isso fornece um mapeamento da distribuição de dados complicada para uma distribuição circular simples.

Para gerar dados, podemos simplesmente gerar dados esféricos simples e, em seguida, viajar de volta ao longo das linhas do campo elétrico para obter novos pontos de dados da distribuição de dados original. Na prática, aprendemos um campo elétrico aproximado usando um U-Net que recebe um vetor de entrada para um ponto no espaço e retorna o vetor de campo elétrico naquele ponto.

Essa abordagem, conhecida como PGMs, foi introduzida no final do ano passado, e um sucessor, o PGM++, foi publicado mais recentemente. Os autores argumentam que os PGMs oferecem benefícios em relação aos modelos de difusão, que alimentam o Stable Diffusion e o Dolly.

Modelos de Difusão e Termodinâmica

Os modelos de difusão, que alimentam modelos como o Stable Diffusion, se inspiram nos princípios da termodinâmica. A principal percepção é que o movimento aleatório de átomos, conforme descrito pela termodinâmica, pode ser mapeado para a difusão aleatória dos valores de pixel em uma imagem.

A termodinâmica vê os átomos como moedas, onde o comportamento macroscópico de um grande conjunto de moedas (átomos) pode ser muito diferente do comportamento microscópico de moedas individuais. Por exemplo, a probabilidade de todas as moedas caírem com a face para cima é muito menor do que a probabilidade de 50% das moedas caírem com a face para cima, mesmo que cada moeda tenha 50% de chance individualmente.

Da mesma forma, nos modelos de difusão, os valores de pixel em uma imagem são tratados como átomos que sofrem passeios aleatórios. Assim como o movimento aleatório do corante alimentar na água leva a uma distribuição uniforme, o movimento aleatório dos pixels leva a ruído gaussiano, que pode ser pensado como o equivalente da imagem à cor uniforme.

Aprendendo como esse processo de difusão funciona para um determinado conjunto de dados de imagens, os modelos de difusão podem então reverter o processo. Eles podem começar com ruído gaussiano e gradualmente "desfazer" a difusão para gerar imagens novas e realistas. Isso é análogo a pegar uma imagem com cores aleatórias e rastrear de volta o processo de difusão para recuperar a imagem original.

Os detalhes matemáticos de como isso funciona podem ser explorados mais a fundo na introdução aos modelos de difusão no blog. Mas a principal conclusão é que os princípios da termodinâmica e dos passeios aleatórios fornecem uma estrutura poderosa para a construção de modelos de IA gerativa de ponta.

Conclusão

Os distintos campos da física e da IA muitas vezes se cruzaram, com conceitos importantes da matemática e da física impulsionando o progresso na IA. Neste vídeo, exploramos como a IA se inspirou nos campos da eletrostática e da termodinâmica para criar modelos de IA gerativa de ponta.

Os modelos de IA gerativa funcionam amostrando de uma distribuição de dados, o que pode ser uma tarefa complexa para dados de alta dimensionalidade, como imagens. Para superar esse desafio, os pesquisadores de IA recorreram a princípios físicos para mapear a distribuição de dados complicada para uma mais simples.

No caso dos Modelos Geradores Plug-and-Play (PGMs), o campo elétrico gerado pelos pontos de dados, tratados como partículas carregadas, fornece um mapeamento da distribuição de dados complexa para uma distribuição circular mais simples. Ao aprender esse campo elétrico, os PGMs podem gerar novos dados amostrando da distribuição simples e viajando ao longo das linhas do campo elétrico.

Da mesma forma, os modelos de difusão, que alimentam modelos como o Stable Diffusion, exploram o conceito de difusão da termodinâmica. Assim como o movimento aleatório de átomos leva a uma distribuição gaussiana, os modelos de difusão veem os pixels em uma imagem como "átomos" que sofrem passeios aleatórios, permitindo-lhes gerar novas imagens começando com ruído gaussiano e revertendo o processo de difusão.

Esses exemplos demonstram como a interação entre a física e a IA pode levar a modelos geradores poderosos e inovadores. Ao entender e aproveitar os princípios da eletrostática e da termodinâmica, os pesquisadores encontraram novas maneiras de enfrentar os desafios da geração de dados de alta dimensionalidade, abrindo caminho para novos avanços no campo da IA.

Perguntas frequentes