Hur fysik inspirerar banbrytande generativa AI-modeller

Upptäck hur fysik inspirerar banbrytande generativa AI-modeller, från elektrostatikbaserade PGM:er till diffusionsmodeller inspirerade av termodynamik. Få insikter i de senaste framstegen som kombinerar fysik och AI för revolutionerande bildgenerering.

21 februari 2025

party-gif

Upptäck hur banbrytande AI-modeller utnyttjar fysikens principer för att generera ny och fängslande data. Utforska den fascinerande skärningspunkten mellan elektrostatik, termodynamik och de senaste framstegen inom generativ AI. Den här blogginlägget erbjuder en djupdykning i vetenskapen bakom dessa innovativa tekniker, och ger dig kunskap för att förstå framtiden för AI-driven innehållsskapande.

Hur fysik inspirerar generativa AI-modeller

Generativa AI-modeller har gjort betydande framsteg genom att hämta inspiration från fysikens principer. Två framträdande exempel är Pixel Generativa Modeller (PGM) och Diffusionsmodeller.

Pixel Generativa Modeller (PGM): PGM behandlar datapunkter som elektroner och utnyttjar det elektriska fält som dessa "laddningar" genererar för att kartlägga den komplicerade datafördelningen till en enklare, cirkulär fördelning. Genom att lära sig approximatorn för det elektriska fältet kan PGM generera nya dataprover genom att sampla från den enkla fördelningen och röra sig bakåt längs de elektriska fältlinjerna.

Diffusionsmodeller: Diffusionsmodeller hämtar inspiration från termodynamikens koncept och den slumpmässiga rörelsen hos atomer. De betraktar pixlar i en bild som atomer och simulerar deras diffusionsprocess. Genom att lära sig hur atomerna (pixlarna) diffunderar kan diffusionsmodeller generera nya bilder genom att starta med gaussisk brus och vända diffusionsprocessen för att erhålla nya prover från datafördelningen.

Både PGM och Diffusionsmodeller utnyttjar fysikens principer, såsom elektrostatik och termodynamik, för att övervinna utmaningen att direkt lära sig och sampla från de komplexa datafördelningarna. Genom att kartlägga de komplicerade fördelningarna till enklare sådana kan dessa modeller effektivt generera nya dataprover som fångar de underliggande mönstren i träningsdata.

Pan Flow Generativa Modeller (PGM) och elektrostatik

PGM behandlar datapunkter som elektroner och utnyttjar det elektriska fält som dessa datapunkter genererar. Tänk dig en tvådimensionell datadistribution, såsom höjd och vikt hos människor. Föreställ dig denna datadistribution som en laddningsfördelning, där punkter med högre sannolikhet har mer elektrisk laddning.

Det elektriska fältet från denna laddningsfördelning skulle vara komplicerat och ha hög krökning runt själva fördelningen. Men när vi zoomar ut blir det elektriska fältet mer regelbundet. På mycket långa avstånd skulle laddningsfördelningen se ut som en punktladdning, och det elektriska fältet skulle vara enkelt, pekande radiellt utåt i alla riktningar.

Nyckelinsikten är att det komplicerade elektriska fältet runt laddningsfördelningen måste ansluta sömlöst till denna radiella fördelning på långa avstånd. Detta ger en kartläggning från den komplicerade datadistributionen till en enkel, cirkulär fördelning.

För att generera data kan vi helt enkelt generera enkla, sfäriska data och sedan röra oss bakåt längs de elektriska fältlinjerna för att få nya datapunkter från den ursprungliga datadistributionen. I praktiken lär vi oss ett approximativt elektriskt fält genom att använda en U-Net som tar in en inmatningsvektor för en punkt i rymden och returnerar den elektriska fältvektorn på den punkten.

Denna metod, känd som PGM, introducerades i slutet av förra året, och en efterföljare, PGM++, publicerades nyligen. Författarna hävdar att PGM erbjuder fördelar jämfört med diffusionsmodeller, som driver Stable Diffusion och Dolly.

Diffusionsmodeller och termodynamik

Diffusionsmodeller, som driver modeller som Stable Diffusion, hämtar inspiration från termodynamikens principer. Nyckelinsikten är att den slumpmässiga rörelsen hos atomer, så som den beskrivs av termodynamiken, kan kartläggas till den slumpmässiga diffusionen av pixelvärden i en bild.

Termodynamiken betraktar atomer som mynt, där det makroskopiska beteendet hos en stor samling mynt (atomer) kan vara mycket annorlunda än det mikroskopiska beteendet hos enskilda mynt. Till exempel är sannolikheten för att alla mynt landar med krona uppåt mycket lägre än sannolikheten för att 50% av mynten landar med krona uppåt, även om varje mynt har 50% chans individuellt.

På liknande sätt behandlar diffusionsmodeller pixelvärden i en bild som atomer som genomgår slumpmässiga promenader. Precis som den slumpmässiga rörelsen hos matfärg i vatten leder till en jämn fördelning, leder den slumpmässiga rörelsen hos pixlar till gaussiskt brus, vilket kan ses som bildekvivalenten av jämn färg.

Genom att lära sig hur denna diffusionsprocess fungerar för en viss uppsättning av bilder kan diffusionsmodeller sedan vända processen. De kan starta med gaussiskt brus och gradvis "ångra" diffusionen för att generera nya, realistiskt utseende bilder. Detta är analogt med att ta en slumpmässigt färgad bild och spåra tillbaka diffusionsprocessen för att återskapa den ursprungliga bilden.

De matematiska detaljerna i hur detta fungerar kan utforskas ytterligare i introduktionen till diffusionsmodeller på bloggen. Men den viktiga insikten är att principerna för termodynamik och slumpmässiga promenader ger ett kraftfullt ramverk för att bygga toppmoderna generativa AI-modeller.

Slutsats

De skilda områdena fysik och AI har ofta korskontaminerats, där viktiga koncept från matematik och fysik driver framsteg inom AI. I denna video har vi utforskat hur AI har hämtat inspiration från områdena elektrostatik och termodynamik för att skapa toppmoderna generativa AI-modeller.

Generativa AI-modeller fungerar genom att sampla från en datadistribution, vilket kan vara en komplex uppgift för högdimensionell data som bilder. För att övervinna denna utmaning har AI-forskare vänt sig till fysikaliska principer för att kartlägga den komplicerade datadistributionen till en enklare sådan.

I fallet med Plug-and-Play Generativa Modeller (PGM) ger det elektriska fält som genereras av datapunkter, behandlade som laddade partiklar, en kartläggning från den komplexa datadistributionen till en enklare, cirkulär fördelning. Genom att lära sig detta elektriska fält kan PGM generera nya data genom att sampla från den enkla fördelningen och röra sig längs de elektriska fältlinjerna.

På liknande sätt utnyttjar diffusionsmodeller, som driver modeller som Stable Diffusion, konceptet diffusion från termodynamiken. Precis som den slumpmässiga rörelsen hos atomer leder till en gaussisk fördelning, betraktar diffusionsmodeller pixlar i en bild som "atomer" som genomgår slumpmässiga promenader, vilket låter dem generera nya bilder genom att starta med gaussiskt brus och vända diffusionsprocessen.

Dessa exempel visar hur korskontaminering mellan fysik och AI kan leda till kraftfulla och innovativa generativa modeller. Genom att förstå och utnyttja principerna för elektrostatik och termodynamik har forskare hittat nya sätt att tackla utmaningarna med högdimensionell datageneration, vilket banar väg för ytterligare framsteg inom AI-området.

FAQ