Avslöja den AI-röst som ingen förväntade sig: Moshi AI testad

Upptäck Moshi AI, en röstassistent med låg latens och öppen källkod som syftar till att utmana GPT-40. Utforska de senaste framstegen inom AI-videogenerering, verktyg för text till bild och fler nyheter och insikter om banbrytande AI.

15 februari 2025

party-gif

Upptäck de senaste genombrottet inom AI som du faktiskt kan använda, från en banbrytande öppen källkod röstassistent till framkanten av videogenerering verktyg. Utforska de praktiska tillämpningarna och verkliga konsekvenserna av dessa transformativa teknologier, och lär dig hur du kan utnyttja dem för att förbättra dina egna projekt och arbetsflöden.

Den överraskande lanseringen av Moshi AI: En röstassistent med låg latens och öppen källkod

Mitt i hypen kring OpenAI:s GPT-4 Voice Assistant har en ny spelare dykt upp - Moshi AI, en öppen källkods-röstassistent utvecklad av det franska företaget Cute AI Labs. Detta webbaserade gränssnitt lovar interaktioner med låg fördröjning och känslomässig medvetenhet i sin röst.

De viktigaste höjdpunkterna för Moshi AI är:

  • Låg fördröjning: Moshi AI strävar efter att erbjuda en realtids-, avbrottsstyrd röstupplevelse, till skillnad från de fördröjda svar som ofta förknippas med röstassistenter.

  • Känslomässig medvetenhet: Assistenten hävdar att den har förmågan att upptäcka och reagera på användarens känslomässiga ton, även om denna funktion inte demonstrerades konsekvent under testningen.

  • Öppen källkod: Cute AI Labs planerar att öppna källkoden för Moshi AI, vilket gör det möjligt för utvecklare att integrera den i sina egna applikationer.

Men även om de inledande testerna avslöjade vissa begränsningar i assistentens förmågor, som inkonsekvent röstmodulering och känsliodetektering, tyder den öppna källkoden på att Moshi AI har potential att förbättras över tid när gemenskapen bidrar till dess utveckling.

Tillgången till Moshi AI, tillsammans med den förväntade lanseringen av GPT-4:s röstfunktioner, signalerar en spännande tid i den konversationella AI-världen. Eftersom dessa teknologier fortsätter att utvecklas kan användarna förvänta sig att se mer innovativa och tillgängliga röstassistenter dyka upp, vilket potentiellt kan förändra sättet vi interagerar med teknik.

Utvecklingen av AI-videogenerering: Utforska möjligheterna och begränsningarna hos GenFree

För bara 7 år sedan var state-of-the-art inom AI-bildgenerering knappt igenkännbar. Nu har den senaste videogenerationsmodellen, GenFree, tagit ett enormt steg framåt och producerar häpnadsväckande realistiska och kreativa visuella effekter.

Men även om GenFree är en imponerande prestation är det viktigt att förstå dess förmågor och begränsningar. Modellen är utmärkt på att generera högkvalitativa cinematiska skott, som drönarmaterial av en fyr, tack vare sin omfattande träning på relevant visuell data. Den kämpar dock med mer specifika förfrågningar, som att skapa en utter som surfar en våg, på grund av bristen på sådana nischade exempel i sin träning.

En av GenFrees nyckelstyrkor är dess förmåga att blanda olika konstnärliga stilar. Genom att uppmana modellen att skapa en scen i stil med den holländske målaren Hieronymus Bosch blir resultatet en fängslande blandning av medeltida fantasy och modern GTA-liknande cinematografi.

Det sagt, kostnaden för att använda GenFree kan snabbt adderas upp. Varje 10-sekunders generation kostar $1 i krediter, och att uppnå önskat resultat kräver ofta flera iterationer. Detta kan göra verktyget oöverkomligt dyrt för tillfällig experimentering.

Trots dessa begränsningar är GenFrees potential obestridlig. När modellen fortsätter att förbättras och användningskostnaden minskar kan vi förvänta oss att se fler och fler verkliga tillämpningar, som Motorolas reklamkampanj som utnyttjade AI-genererad video.

Tills dess kan den mest givande användningen av GenFree vara inom det kreativa utforskandet och experimentet. Att uppmana modellen med ovanliga kombinationer av element, som en "dansfest full av katter med hattar", kan leda till förtjusande bisarra och fantasifulla resultat.

När området för AI-videogenerering utvecklas snabbt är det en spännande tid att utforska dessa banbrytande verktygs möjligheter och begränsningar. Med tålamod och en vilja att experimentera kan användare frigöra GenFrees fulla potential och driva gränserna för vad som är möjligt inom AI-drivna visuella effekter.

Uppgradering av röstassistenter: 11 Labs utökar sina ikoniska röster och funktioner för ljudisolering

11 Labs har skickat ut nya funktioner för sin röstassistentplattform. De viktigaste uppdateringarna inkluderar:

  1. Ikoniska röster: 11 Labs läsar-appen tillåter nu användare i USA, Storbritannien och Kanada att få sin text uppläst av ikoniska röster som James Dean eller Bert Lahr. Detta ger en rolig och unik touch till text-till-tal-upplevelsen.

  2. Ljudisolering: 11 Labs har släppt ett nytt AI-verktyg som kan isolera röster från bullrig ljudmiljö. Detta gör det möjligt för användare att ta bort bakgrundsljud och få kristallklar ljudkvalitet, liknande funktioner som andra företag lanserade tidigare i år.

  3. Mobil app för AI-musikgenerering: Sooner, en musikgenererande AI, har släppt en mobil app som låter användare generera AI-musik på språng. Detta är dock för närvarande begränsat till iOS-användare i USA, med en Android-version och global lansering planerad när flerspråkiga funktioner är integrerade.

Dessa uppdateringar från 11 Labs och Sooner demonstrerar den fortsatta utvecklingen och expansionen av röstassistent- och ljudmanipuleringsfunktioner drivna av AI. Medan de ikoniska rösterna och ljudisoleringsegenskaperna är omedelbart användbara, pekar den mobila musikgenereringsappen på potentialen för AI-driven kreativitet på språng.

Luma AI Keyframes: Bedöma praktikaliteten hos mjuka övergångar i AI-video

På en snabb sidokommentar har Luma AI också släppt en helt ny funktion som heter Luma Keyframes. Denna funktion låter dig transformera en sak till en annan, och skapa mjuka övergångar med hjälp av AI-video.

Vi beslutade att testa denna funktion, med hjälp av Mid-Journey-genererade bilder från vår Star Wars-temavideo. Idén var att se hur väl Luma Keyframes-funktionen skulle hantera dessa övergångar.

Tyvärr var resultaten lite besvikande. Av de 8 teammedlemmar vi testade var 8 av övergångarna i princip oanvändbara. Funktionen resulterade ofta i ett hårt snitt mitt i scenen, snarare än den mjuka övergång vi hoppades på.

Det fanns några undantag, som Ariads övergång med lightsabern, som visade sig ganska bra. Och Larrys övergång mellan Yoda-liknande och onda karaktärer hade också några intressanta moment. Men överlag var resultaten inte lika sömlösa som vi hade förväntat oss.

Det verkar som att även om Luma Keyframes-funktionen är ett intressant koncept, kräver den i praktiken mycket iteration och finslipning för att få användbara resultat. De AI-genererade innehållen, trots sin visuella slagkraft, passar inte alltid så bra för den här typen av mjuka övergångar.

Sammanfattningsvis visar Luma Keyframes-funktionen lovande, men baserat på våra tester är den ännu inte redo för storskalig användning. Tekniken utvecklas fortfarande, och vi får se hur den förbättras över tid. Tills vidare är det kanske bäst att närma sig den med försiktiga förväntningar.

Motorolas AI-drivna reklamkampanj: Utnyttja AI-video för verkliga tillämpningar

Motorola har nyligen visat upp en kreativ användning av AI-videoteknik i sin senaste reklamkampanj. Genom att utnyttja verktyg som Control Net och Stable Diffusion kunde företaget generera en serie bilder som sömlöst integrerar Motorola-logotypen i olika modinspirerade stilar.

Arbetsflödet involverade troligen att infoga Motorola-logotypen i bilderna med hjälp av Control Net, och sedan använda Stable Diffusion för att generera de slutliga visuella effekterna. Dessa bilder sammanställdes sedan till en reklamfilm, komplett med musik och redigering, för att skapa en polerad och visuellt slående slutprodukt.

Detta exempel visar hur företag börjar utforska de praktiska tillämpningarna av AI-videogenerering i den verkliga världen. Även om kvaliteten kanske ännu inte når upp till state-of-the-art-exemplen som visats upp av Gen-Free, visar Motorolas reklamkampanj att AI-driven video kan vara en livskraftig och kostnadseffektiv lösning för vissa typer av innehållsskapande.

När tekniken fortsätter att förbättras kan vi förvänta oss att se fler och fler varumärken och företag integrera AI-video i sina marknadsförings- och reklamstrategier. Detta representerar en spännande utveckling inom AI-driven medieproduktion, och det kommer att vara intressant att se hur branschen fortsätter att utvecklas under de kommande åren.

Perplexity Search: Förbättra sökning med flerstegstänkande och extern dataåtkomst

Perplexity, den AI-drivna sökmotorn, har introducerat en ny funktion som kallas "Pro Search" som syftar till att erbjuda mer avancerade och omfattande sökfunktioner. Denna funktion integrerar flerstegstänkande och tillgång till externa datakällor, som matematik, programmering och Wolfram Alpha, för att leverera mer korrekta och informativa sökresultat.

De viktigaste aspekterna av Perplexity Pro Search-funktionen inkluderar:

  1. Flerstegstänkande: Sökmotorn kan nu bryta ner komplexa frågor och utföra flera steg av tänkande för att tillhandahålla mer omfattande och relevanta svar. Detta gör det möjligt för användare att ställa mer nyanserade och detaljerade frågor, och få skräddarsydda svar.

  2. Integrering av externa data: Perplexity Pro Search kan nu komma åt och utnyttja data från externa källor, som matematiska beräkningar, programmeringsresurser och Wolfram Alpha-kunskapsbasen. Denna integrering gör det möjligt för sökmotorn att tillhandahålla mer korrekta och informativa svar, särskilt för frågor som kräver specialiserad kunskap eller beräkningar.

  3. Premiumfunktion: Perplexity Pro Search-funktionaliteten är för närvarande tillgänglig som en premiumfunktion för Perplexity-prenumeranter. Detta ger användare som regelbundet förlitar sig på plattformen tillgång till dessa avancerade sökfunktioner och förbättrar deras övergripande sökupplevelse.

Introduktionen av Perplexity Pro Search representerar ett steg mot mer agentisk och intelligent sökning, där AI-systemet aktivt kan resonera och utnyttja externa resurser för att leverera mer omfattande och användbar information till användarna. Eftersom efterfrågan på avancerade sökfunktioner fortsätter att växa, kommer funktioner som denna sannolikt att bli allt viktigare i den AI-drivna sökmiljön.

Interdimensional Cable ONE: Ett innovativt WebSim AI-experiment inspirerat av Rick och Morty

Ett av de mest intressanta och roliga AI-experimenten som visas i videon är webbplatsen "Interdimensional Cable ONE", som delades av Carol i communityn. Denna webbplats är en rekonstruktion av det ikoniska "Interdimensional Cable"-konceptet från den animerade serien "Rick and Morty".

I serien tar farbror Rick med sig ett TV-set från en annan dimension, vilket låter karaktärerna titta på slumpmässiga och bisarra TV-stationer över multiverse. WebSim AI-teamet har återskapat detta koncept med hjälp av webbaserad AI, och skapat en webbplats som levererar en liknande slumpmässig och oförutsägbar tittarupplevelse.

När du laddar Interdimensional Cable ONE-sidan vet du aldrig vad du kommer att få se. Den presenterar en samling superslumpmässiga och tripy-videos, som fångar essensen av seriens "Interdimensional Cable"-koncept. Detta experiment kommer sannolikt att resonera mest med hängivna "Rick and Morty"-fans, som kommer att uppskatta uppmärksamheten på detaljer och den trogna återgivningen av seriens unika estetik.

Videon belyser att inte allt i AI-världen måste handla om produktivitet eller allvarliga tillämpningar. Den roliga och experimentella sidan av AI, som de udda videogenerationerna eller skapandet av interdimensionella kabel-inspirerade webbplatser, är lika spännande och värd att utforska. Detta projekt är ett bevis på den kreativitet och lekfullhet som kan uppstå i skärningspunkten mellan AI och populärkultur.

Avslöjande av Dolphin Vision 72B: Den ocensurerade AI-modellen som utmanar gränserna

Det har släppts en helt ny ofiltrerad multimodell som heter Dolphin Vision 72B. Denna modell är en ändring av Quen 2-modellen och representerar den största parameterstorleken vi sett hittills.

Att köra denna modell kommer att bli ganska utmanande, eftersom den kräver en monsterdator eller hyra av många GPU:er. Den är ännu inte särskilt populär, men dess lansering är en intressant antydan om vart vi är på väg i framtiden med ofiltrerade, multimodala modeller.

Denna typ av obegränsade modeller öppnar upp ett helt nytt område av möjligheter, både spännande och oroande. Open source-communityn kommer sannolikt att börja bygga alla möjliga applikationer som vi inte ens kan förutse existensen av just nu.

Men avsaknaden av några som helst begränsningar på denna modell väcker också allvarliga etiska frågor. Det är ett dubbeleggat svärd som kommer att leda till intressanta resultat, men också har potential för missbruk och övergrepp.

När förmågorna hos dessa ofiltrerade modeller fortsätter att växa kommer det att vara avgörande för AI-communityn att brottas med implikationerna och arbeta mot ett ansvarsfullt utvecklande och implementering.

Figmas AI-revolution: Utforska potentialen och utmaningarna med promptbaserad UI och visuell sökning

Figma, den populära designplattformen, har nyligen tillkännagett en svit av AI-drivna funktioner som är på väg att revolutionera sättet designers arbetar. Två av de utmärkande funktionerna är "Prompt to UI" och "Visual Search".

"Prompt to UI"-funktionen låter designers helt enkelt beskriva den typ av användargränssnitt de vill ha, och Figmas AI kommer att generera hela designen åt dem. Detta har potential att dramatiskt effektivisera designprocessen, vilket gör det möjligt för designers att snabbt iterera på idéer och utforska nya koncept.

Denna funktion har dock också väckt viss kontroversi, eftersom den verkar ha nära efterliknat utformningen av Apples Väder-app. Figma har sedan dess inaktiverat denna funktion, och erkänt behovet av att säkerställa att deras AI-genererade designer inte kränker befintlig immateriell egendom.

"Visual Search"-funktionen, å andra sidan,

FAQ