Hollywood-kvalitets AI-video avslöjad: Utforska de senaste framstegen inom AI-video

Upptäck de senaste framstegen inom AI-videoteknik, inklusive det Hollywoodkalibrerade Odyssey-verktyget och verktyg som Live Portrait och PaintSUndo. Lär dig hur AI omvandlar videoskapande och möjliggör nya kreativa möjligheter. Utforska de senaste utvecklingarna från OpenAI, Meta och andra ledande AI-företag.

24 februari 2025

party-gif

Upptäck de senaste framstegen inom AI-videoteknik, från "Hollywood-kvalitet" AI-videogenerering till innovativa verktyg som ger liv åt dina bilder. Utforska de banbrytande utvecklingarna som omformar den visuella berättarkonsten.

Dra nytta av Hollywood-kvalitets AI-videogenerering

Odyssey, ett nytt AI-videoverktyg, hävdar att det erbjuder Hollywoodkvalitets visuella möjligheter. Utvecklat av ett team med erfarenhet från självkörande bilar och stora filmproduktioner, syftar Odyssey till att möjliggöra fullständig kontroll över de centrala lagren av visuell berättarkonst, inklusive högkvalitativ geometri, fotorealistiska material, fantastisk belysning och kontrollerbar rörelse.

Verktygen är för närvarande inte offentligt tillgängliga, men teamet arbetar tillsammans med Hollywood för att forma tekniken. Odysseys generativa modeller är utformade för att ge exakt konfiguration av scen detaljer, vilket gör det möjligt för skapare att förverkliga sina visioner med felfria och häpnadsväckande visuella effekter.

När AI-videolandskapet fortsätter att utvecklas erbjuder verktyg som Odyssey potential att demokratisera tillgången till högkvalitativ, filmisk videogenerering och ge skapare möjlighet att förverkliga sina kreativa projekt på sätt som tidigare varit utom räckhåll.

Ge liv åt bilder med Live Portrait

Live Portrait är ett verktyg som låter dig animera en bild med hjälp av en drivande video. Så här fungerar det:

  1. Du laddar upp en stillbild och en drivande video.
  2. Verktyget animerar sedan bilden för att matcha rörelserna och uttrycken i den drivande videon.
  3. Resultatet är en video där bilden verkar komma till liv, med subjektets mun, ögon och huvudrörelser synkroniserade med den drivande videon.

Verktygen finns tillgängligt på GitHub, och du kan också använda det via en Hugging Face-yta gratis. Även om det fungerar bra för expressiva ansikten kan det ha svårt med vissa funktioner som skägg.

För att använda Live Portrait, välj helt enkelt in bilden och den drivande videon, klicka sedan på "Animera" för att generera den slutliga utdatavideoen. Du kommer att se en jämförelse sida vid sida, med den animerade bilden till vänster och den ursprungliga drivande videon till höger.

Detta verktyg är ett bra exempel på framstegen inom AI-driven videogenerering, vilket låter dig ge liv åt stillbilder på ett sömlöst och realistiskt sätt.

Omvänd dina digitala konstverk med Paints Undo

Forskningsprojektet som kallas "Paints Undo" är ett fascinerande verktyg som låter dig bakåtingeniera digitala konstverk. Idén är enkel - du laddar upp en färdig bild, som en animekaraktär, och verktyget kommer att generera en steg-för-steg-process som visar dig hur du kan återskapa det konstverket.

Detta är i princip det omvända av vad vi sett med AI-konstgeneratorer som Midjourney eller DALL-E. Istället för att börja med en textprompt och generera en bild, tar Paints Undo den slutliga bilden och bryter ner den i de inledande skisserna, målningen och skuggningssteget.

Exemplen som visas på projektets GitHub-sida demonstrerar denna process för olika animeliknande konstverk. Du kan se hur verktyget dekonstruerar den slutliga bilden och avslöjar de underliggande lagren och tekniker som användes för att skapa den.

Men även om koden för närvarande finns tillgänglig på GitHub, noterar utvecklarna att bearbetningstiden ofta är längre än typiska Hugging Face-uppgifter. Därför rekommenderar de inte att det distribueras direkt till Hugging Face. Istället planerar de att släppa en Google Colab-anteckningsbok i framtiden, vilket kommer att ge ett mer tillgängligt sätt att använda Paints Undo-verktyget.

Om du är intresserad av att utforska denna bakåtingenieringsmetod för digital konst, håll utkik efter den kommande Colab-anteckningsboken. Detta verktyg skulle kunna vara en värdefull resurs för konstnärer som vill lära sig och replikera de tekniker som används i deras favoritdigitala konstverk.

Förbättra din videoskapande med nid AI

Att skapa högkvalitativa videor kan vara otroligt tidskrävande, från manus till redigering till att hitta rätt arkivmaterial. Det är ett enormt arbete. Där kommer nid AI in.

nid är världens mest använda AI-videoskapare med över 25 miljoner användare runt om i världen. Föreställ dig att ha en skicklig assistent som kan hantera alla de smärtsamma och irriterande videoredigeringsuppgifterna, så att du kan fokusera på din kreativitet.

Så här fungerar det:

  1. Börja med en enkel textprompt, som "en kort video som förklarar varför framsteg inom robotik accelererar".
  2. Klicka på generera video och ge den några ytterligare detaljer, som att göra den till en YouTube-kort.
  3. nid skapar ett utkast åt dig, baserat på den prompt du just angav.
  4. Därefter är du i förarsätet. Vill du ändra på inledningen? Gör det med en prompt. Behöver du bättre bildmaterial för en scen? Klicka bara på redigera, välj klippet du vill byta ut och ersätt det med deras högkvalitativa arkivvideomaterial.
  5. Vill du översätta hela videon till spanska? Det är också lätt, skriv bara in prompten och klicka på generera.

nid AI utför uppgiften för över 10 verktyg som är kombinerade till en enda enkel plattform. Detta kan lätt spara dig hundratals dollar i månaden i återkommande avgifter, och det börjar på endast 20 dollar per månad.

Jag rekommenderar starkt att du testar nid AI, särskilt om du är seriös med videoskapande. Du kan börja gratis, men de betalda planerna tar bort vattenstämpeln, ger dig tillgång till röstkloning och förser dig med ytterligare högkvalitativt arkivmaterial.

Gå bara till länken i beskrivningen och använd min kupongkod "mw50" eller använd QR-koden på skärmen för att få dubbelt så många videokrediter din första månad. Kolla in nid AI idag och ta din videoskapande till nästa nivå.

Upptäck kraften i Po Previews och Anthropics senaste framsteg

Om du har använt chatboten Po, så har den precis fått en ny uppdatering den här veckan som heter Förhandsvisningar. Det är en ny funktion som låter dig se och interagera med webbapplikationer som genererats direkt i chattar på Po.

Förhandsvisningar fungerar särskilt bra med LLM:er som är duktiga på kodning, inklusive Clae 3.5, Sonet GPT 4.0 och Gemini 1.5. Po är en prenumerationsbaserad chatbot, men när du använder den kan du välja vilken modell du vill använda - du är inte fast med bara att använda GPT, Claud eller Gemini. Detta verkar mycket likt det som Anthropic precis släppte med deras Artifacts, men det är i Po och du kan använda det med flera olika modeller.

Du kan se från det tillhandahållna klippet att efter att ha fått en prompt, genererade Po faktiskt koden och körde koden i realtid direkt i chattfönstret. Förhandsvisningarna kan delas med vem som helst via en dedikerad länk, så om du skapar något coolt kodat inne i Po, kan du dela en länk med andra och de kommer att få tillgång till det i sitt Po-konto.

Talande om Anthropic, de gjorde också Artifacts delbar den här veckan. Artifacts är inget nytt, där du anger din prompt på vänster sida och den genererar koden och förhandsvisningen på höger sida, och du kan interagera med den. Men möjligheten att dela det med andra, så att de kan använda, prova och remixera det, är en ny funktion.

Anthropic förbättrar ständigt användbarheten för att använda deras app. De har också lanserat möjligheten att utvärdera prompter i utvecklarkonsolen. Detta gör det möjligt att generera förbättrade prompter, jämföra flera prompter och testa enskilda variabler inom varje prompt för att se hur de ändrar utdata.

I övrigt har Meta annonserat en ny språkmodell som heter Mobile LLM, en mycket mindre modell utvecklad för mobila enheter. Enligt det tillhandahållna diagrammet verkar noggrannheten vara mycket högre än de flesta andra mobila modeller.

Sammanfattningsvis ser vi fortsatta framsteg och förbättringar i AI-världen, där verktyg som Po Förhandsvisningar och Anthropics Artifacts gör det enklare att skapa och dela interaktiva applikationer. Möjligheten att välja olika modeller och utvärdera prompter är också en välkommen utveckling som ger användare möjlighet att få ut det mesta av dessa kraftfulla AI-system.

Håll dig uppdaterad med de senaste nyheterna om Open AI, Stability AI och upphovsrättsliga konsekvenser

Open AI har gjort rubriker den här veckan med flera betydande utvecklingar:

  • Open AI har blockerat tillgången till ChatGPT i Kina, vilket stänger av ett kryphål som tillät användare att kringgå förbudet. Kina har dock fortfarande tillgång till GPT-4 via Microsoft Azure, vilket leder till spekulationer om att GPT-5 kan vara på gång.
  • Både Microsoft och Apple har dragit sig ur sina planer på att ha observatörsroller i Open AIs styrelse, troligen på grund av oro över kartellutredningar.
  • Open AI har annonserat ett partnerskap med Los Alamos National Laboratory för biovetenskap forskning, och arbetar också med Arianna Huffingtons Thrive Global för att utveckla en personlig AI-hälsocoach.

Stability AI, företaget bakom Stable Diffusion, har också gjort några anmärkningsvärda uppdateringar:

  • De har uppdaterat sina licensvillkor, vilket tillåter mer kommersiell användning av deras modeller, så länge den årliga omsättningen inte överstiger 1 miljon dollar.
  • Stability AI har släppt nya funktioner för deras Stable Assistant, inklusive sök och ersätt, samt text-till-ljud-funktioner.

När det gäller upphovsrättsfrågor tyder en nylig domstolsavgörande på att AI-system kan vara fria så länge deras utdata är tillräckligt annorlunda från ingångsmaterialet, vilket ger viss praxis för framtida rättstvister.

Dessutom har ett föreslagen lag i Kalifornien (SB 1047) potential att allvarligt hindra AI-forskare, och motarbetas aktivt av branschledare som Ananth Raman från A16Z.

Sammanfattningsvis fortsätter AI-landskapet att utvecklas snabbt, med betydande framsteg från branschledare som Open AI och Stability AI, samt viktiga rättsliga och regulatoriska överväganden som kommer att forma framtiden för detta fält.

Utforska Samsungs AI-drivna apparater

Samsungs senaste produktsortiment visar upp integrationen av AI över deras enheter. Några viktiga höjdpunkter inkluderar:

  • Galaxy Z Fold 6: Utrustad med Samsungs senaste AI-funktioner, inklusive Circle för att söka, översätta och transkribera PDF-dokument, generera AI-baserade bilder från människor eller föremål i foton, och en skiss-till-bild-funktion som förvandlar snabba skisser till högkvalitativa bilder.

  • Galaxy Z Flip 6: Den externa skärmen har föreslagna svar från den lokala AI:n, och AI-drivna bakgrunder.

  • Galaxy Watch 7: Den första FDA-godkända bärbara enheten som känner igen tecken på sömnapné, driven av en AI-förbättrad sömnalgoritm. Den ger också omfattande energipoäng baserade på aktivitet, sömnkvalitet och andra hälsomått.

  • Galaxy Ring: Använder Galaxy AI för att generera en energipoäng baserad på aktivitet, sömnkvalitet och andra hälsodata, med AI-driven sömnspårning.

  • Galaxy Buds 3 Pro: Har en tolkningsfunktion som utnyttjar AI för att i realtid översätta dialog på främmande språk direkt till användarens öra.

Dessa AI-infuserade enheter visar Samsungs engagemang för att integrera intelligenta funktioner över hela produktlinjen, för att förbättra användarupplevelser genom personalisering, hälsoövervakning och språköversättning.

Upplev Geminis navigationsförmåga på Google Deepmind-kontor

Slutligen, här är en robot som navigerade Google deepmind-kontoren med hjälp av Gemini. Den använder den där Visions-modellen för att se vad som finns runt omkring den och navigerar genom korridorerna, ser till att inte köra in i något eftersom visions-modellen exakt vet var den befinner sig och kan se runt omkring sig för att se till att den inte kör in i något.

Videorna i TechCrunch-artikeln har ingen ljud, men det sägs att roboten kan gå runt i kontoret och peka ut olika landmärken med tal. De använder det som kallas "vision-språk-handling" som kombinerar miljöförståelse och common sense-resonemang. När processerna kombineras kan roboten svara på skrivna och ritade kommandon samt gester.

Rätt nu är det lite som en AI-guidetur - den skulle kunna röra sig runt i en byggnad och peka ut saker för dig och ge dig viss information om det den pekar på.

FAQ