AI-nyheter: En hektisk vecka med framsteg och utvecklingar inom AI

Upptäck de senaste framstegen och utvecklingarna inom AI från den gångna veckan, inklusive OpenAIs avancerade röstfunktion, GPT-4:s förmåga att producera långa utdata, Microsofts påståenden om AI-tävling och uppdateringar från Google, Anthropic, Meta och fler. Håll dig uppdaterad i den ständigt föränderliga världen av AI.

14 februari 2025

party-gif

Det här blogginlägget ger en omfattande översikt över de senaste framstegen inom AI-världen, och täcker ett brett spektrum av ämnen från nya röstfunktioner i OpenAI:s ChatGPT till förvärvet av Leonardo AI av Canva. Läsarna kommer att få insikter i den snabbt utvecklande AI-landskapet och de spännande utvecklingar som formar framtiden för denna teknik.

Open AI:s avancerade röstfunktion

Open AI har börjat rulla ut en avancerad röstfunktion till ett litet antal användare. Den här nya funktionen låter användare generera röster som låter mänskliga, inklusive förmågan att imitera röster som Scarlett Johansson.

Några viktiga höjdpunkter i det avancerade röstläget:

  • Användare med tillgång kan prova "Avancerat röstläge"-alternativet längst ner i chattfönstret.
  • Den kan generera mycket realistiskt klingande röster, inklusive förmågan att imitera röster från kändisar och offentliga personer.
  • Användare kan avbryta rösten medan den talar, en funktion som inte finns i standard-chatGPT-appen.
  • Demonstrationer visar att röstmodellen kan räkna mycket snabbt, till och med simulera behovet av att ta ett andetag.

Men den här avancerade röstfunktionen är för närvarande endast tillgänglig för ett begränsat antal användare. De flesta människor har fortfarande inte tillgång till att prova den själva. Open AI har annonserat den nya funktionen, men rullar ut den långsamt till en utvald grupp för tillfället.

GPT-4 Lång utdata

Open AI har nyligen lanserat en experimentell version av GPT-4 som kallas "GPT-4 Long Output". Den här nya modellen har en maximal utdata på 64 000 tokens per förfrågan, vilket möjliggör mycket längre och mer detaljerade svar jämfört med den vanliga GPT-4-modellen.

GPT-4 Long Output-modellen är för närvarande endast tillgänglig för en utvald grupp av Alpha-deltagare och är ännu inte tillgänglig för allmänheten. Den här experimentella versionen är utformad för att ge användare möjlighet att generera extremt långa och omfattande utdata som svar på deras frågor.

Men även om detaljerna kring modellens arkitektur och träningsprocess inte har offentliggjorts, så uppnås den ökade utdatalängden sannolikt genom framsteg i modellens minnes- och resoneringsförmåga. Detta gör att modellen kan bibehålla kontext och sammanhang över en mycket längre textmängd, vilket möjliggör mer detaljerade och djupgående svar.

Potentiella tillämpningar av GPT-4 Long Output-modellen är omfattande, från utökade forsknings- och analysuppgifter till generering av långformatsinnehåll som rapporter, uppsatser eller till och med böcker. Men liksom med all kraftfull AI-teknik finns det också oro kring potentiell missbruk eller oavsiktliga konsekvenser av en sådan modell.

Open AI har uppgett att de arbetar nära med tillsynsmyndigheter och andra intressenter för att säkerställa en ansvarsfull utveckling och implementering av GPT-4 Long Output-modellen. Detta inkluderar införandet av skyddsåtgärder och riktlinjer för att förhindra att modellen används för skadliga eller oetiska syften.

Sammanfattningsvis representerar lanseringen av GPT-4 Long Output-modellen en betydande milstolpe i utvecklingen av stora språkmodeller och deras förmåga att engagera sig i mer komplexa och nyanserade former av kommunikation och informationsbearbetning. Allteftersom tekniken fortsätter att utvecklas kommer det att vara avgörande att forskare, beslutsfattare och allmänheten noga övervakar dess utveckling och inverkan.

Open AI som konkurrent till Microsoft

Den här veckan hävdar nu Microsoft att Open AI är en konkurrent inom AI och sökning. Detta är intressant eftersom Microsoft har investerat 13 miljarder dollar i Open AI och äger 49 procent av företaget.

I sina finansiella rapporter listade Microsoft företag som Anthropic, Open AI, Meta och andra open source-erbjudanden som konkurrenter för deras AI-erbjudanden. Detta är konstigt att se, eftersom Open AI till 49 procent ägs av Microsoft och de har partneravtal med Meta också.

Det verkar som att Microsoft nu ser Open AI som en konkurrent till deras egen sökning och nyhetsannonsering, även om de har en stor andel i företaget. Detta är en mycket intressant dynamik som har utvecklats mellan de två företagen.

Open AI:s stöd för AI-reglering

Open AI har den här veckan gett sitt stöd till några senatorsförslag relaterade till AI-reglering och säkerhet. Detta inkluderar lagen om framtiden för AI-innovation, som skulle formellt auktorisera USA:s AI-säkerhetsinstitut som en federal myndighet för att fastställa standarder och riktlinjer för AI-modeller.

Open AI har också stött NSF AI Education Act och CREATE AI Act, som ger federala stipendier för AI-forskning och etablerar AI-utbildningsresurser inom högskolor och grundskolor.

Dessa stöd från Open AI tjänar sannolikt syftet att hjälpa företaget att få en plats vid bordet i framtida samtal om AI-reglering. Som ett stort AI-företag är Open AI en sannolik kandidat att möta regulatorisk granskning framöver. Genom att stödja dessa lagar kan Open AI hjälpa forma riktningen för regleringen och säkerställa att dess intressen representeras.

Dessutom har Open AI lovat att ge USA:s AI-säkerhetsinstitut tidig tillgång till sin nästa modell. Detta verkar vara ett försök att motverka narrativet att Open AI har nedprioriterat AI-säkerhet till förmån för mer kraftfulla generativa AI-teknologier.

Sammanfattningsvis tyder Open AI:s åtgärder på att företaget arbetar för att komma närmare den amerikanska regeringen och positionera sig som en nyckelintressent i utvecklingen av AI-reglering och säkerhetsstandarder.

Anthropic lanserar Claud i Brasilien

Goda nyheter för dem i Brasilien - Anthropic har lanserat sin AI-assistent Claud i landet den här veckan. Claud är nu tillgänglig för användare i Brasilien att komma åt och interagera med.

Googles Gemini 1.5 Pro och andra AI-modeller

Google har också gjort stora vågor i AI-världen den här veckan. De släppte en ny version av Gemini 1.5 Pro, som de kallar version 0801 och som är tillgänglig att använda nu i Google AI Studio.

För att komma åt den kan du gå till AI Studio .g google.com och under "Modell"-listrutan ser du "Gemini 1.5 Pro experimental 0801" - det är den modell du vill använda.

När du chattar med den här nya Gemini 1.5 Pro-modellen har den toppar listan på lm.org, till och med överträffar GPT-4, GPT-4 Mini, CLAE 3.5 och Sonet.

Google släppte också en ny mindre version av deras Gemini 2-modell den här veckan - en 2 miljarder parameter-modell byggd för snabbare prestanda och effektivitet, troligen för mobila enheter. Intressant nog överträffar den här 2 miljarder parameter-modellen mycket större modeller som Mixdral 8X 7B, GPT-3.5 Turbo och LLaMA 2 70 miljarder.

Utöver de nya Gemini-modellerna har Google lagt till några imponerande nya Chrome AI-funktioner den här veckan, inklusive Google Lens-integrering som kan identifiera och söka efter objekt i bilder, och en ny jämförelsefunktion som kan jämföra produkter över olika webbplatser.

Sammanfattningsvis har Google drivit gränserna för stora språkmodeller och AI-funktioner i Chrome, vilket visar deras fortsatta innovation och ledarskap inom AI-området.

Googles nya Chrome AI-funktioner

Den här veckan har Google lagt till några nya AI-drivna funktioner i sin Chrome-webbläsare:

  1. Google Lens i Chrome Desktop: Du kan nu använda Google Lens för att söka efter information om objekt i bilder direkt från Chrome-webbläsaren. Markera helt enkelt ett område i en bild och Lens kommer att söka efter liknande produkter eller identifiera objektet.

  2. Produktjämförelse: Chrome har nu en inbyggd funktion som låter dig jämföra produkter över olika flikar och webbplatser. Detta gör det enkelt att forska och jämföra artiklar utan att behöva byta mellan flikar.

  3. Sökhistorik på naturligt språk: Du kan nu använda naturligt språk för att söka i din Chrome-sökhistorik. Till exempel kan du fråga "Vilket var glassaffären jag tittade på förra veckan?" och Chrome kommer att visa relevant information från din sökhistorik.

Dessa nya AI-drivna funktioner i Chrome demonstrerar Googles fortsatta ansträngningar att integrera intelligenta funktioner direkt i sina kärnprodukter och tjänster. Genom att utnyttja teknologier som datorseende och naturlig språkbehandling gör Google det enklare för användare att hitta information, jämföra produkter och navigera i sin webbhistorik - allt utan att lämna Chrome-webbläsaren. Allteftersom AI fortsätter att utvecklas kan vi förvänta oss att se fler av den här typen av intelligenta funktioner bli vanliga över Googles svit av verktyg och applikationer.

Metas nedlagda AI-chatbottar och ny AI-studio

Den här veckan har Meta avvecklat en av de funktioner som de presenterade på förra årets Meta Connect. De hade visat upp AI-chattbotar som såg ut som kända personer, men det var inte de faktiska chattbotarna för dessa kända personer - de använde bara deras ansikte men var tränade på annan information. Men ingen gillade dem egentligen, så Meta tog bort dem.

Men de ersatte det med något annat - nu kan vem som helst skapa sin egen anpassade AI. Meta lanserade en AI-studio, och en av mina vänner, Don Allen Stevenson, är en av de personer som fick tidig tillgång.

Den här nya funktionen låter vem som helst skapa AI-karaktärer baserade på sina intressen. Du kan gå till ai.meta.com/AI-Studio och skapa din egen anpassade AI-karaktär, välja alternativ som AI-husdjur, privat handledare, medintresserad, fantasifull konstnär, ljudbräda, kreativ designer, personlig stylist och mer.

Processen genererar en karaktärsbild med AI, ger den ett namn och en slogan, och sedan kan du ytterligare anpassa och utforma vad du vill att den här AI:n ska göra. Just nu verkar det lite som en nyhet, eftersom du inte enkelt kan dra in stora dokument eller transkript för att låta folk chatta med en AI-avatarversion av dig. Men det är troligen dit de försöker ta det i framtiden.

Det mest imponerande som Meta lanserade den här veckan är deras nya Segment Anything Model 2 (SAM 2). Detta är en modell som kan segmentera ut vissa delar av en bild eller video med imponerande precision, till och med spåra objekt när de rör sig. Det är en stor förbättring jämfört med tidigare segmenteringsmodeller, och kan vara mycket användbart för videoredigeringsuppgifter som rotoskopering. Du kan prova SAM 2 på sam2.metademolab.com.

Sammanfattningsvis fortsätter Meta att driva gränserna för vad som är möjligt med AI, även om vissa av deras konsumentinriktade funktioner kan verka lite gimmicky för tillfället. Det kommer att vara intressant att se hur deras AI-studio och segmenteringsverktyg utvecklas över tid.

Metas Segment Anything Model 2

Meta har släppt en ny version av deras Segment Anything Model, kallad SAM 2. Den här uppdaterade modellen visar betydande förbättringar i sin förmåga att noggrant segmentera objekt i bilder och videor.

Några nyckeldetaljer om SAM 2:

  • Förbättrad förmåga att spåra objekt genom ockludering - modellen kan fortsätta följa ett objekt även när det tillfälligt går bakom ett annat objekt.
  • Förbättrad segmenteringsnoggrannhet, vilket gör att den kan rita ut gränserna för detekterade objekt mer precist.
  • Snabbare bearbetningshastighet, vilket möjliggör segmentering i realtid i videoaplikationer.
  • Utökad mångsidighet, där modellen kan segmentera en bred variation av objekt, från människor och djur till mer komplexa former och strukturer.

Demonstrationerna från Meta visar SAM 2:s imponerande förmågor. Modellen kan till exempel noggrant spåra en skateboard när den rör sig genom en scen, och bibehålla segmenteringen även när skateboarden passerar bakom ett träd. På liknande sätt kan den isolera och följa flera bollar i en video, och särskilja varje en individuellt.

Dessa framsteg inom segmenteringsteknik har spännande implikationer för videoredigering, visuella effekter och andra medieproduktionsarbetsflöden. Genom att automatisera den tråkiga processen med rotoskopering kan SAM 2 potentiellt förenkla och påskynda dessa uppgifter avsevärt. Integration med verktyg som Adobe Premiere och DaVinci Resolve skulle kunna göra SAM 2 till en värdefull tillgång för innehållsskapare.

Sammanfattningsvis representerar Metas Segment Anything Model 2 ett betydande steg framåt inom datorseende och bild-/videobearbetningsförmågor. Allteftersom AI fortsätter att utvecklas kan vi förvänta oss att se ännu mer imponerande bedrifter av visuell förståelse och manipulation i den nära framtiden.

Perplexity Publishers Program

Perplexity, den AI-drivna sökmotorn, har annonserat Perplexity Publishers Program. Detta program syftar till att dela intäkter med specifika partners vars innehåll används som nyhetskälla på Perplexity-plattformen.

Den första omgången av partners som ingår i detta program är:

  • Time
  • Der Spiegel
  • Fortune
  • Entrepreneur
  • The Texas Tribune
  • WordPress.com

Men även om detta program för närvarande endast inkluderar större förlag, har Perplexity uttryckt hopp om att i framtiden kunna ge incitament till vanliga bloggare och innehållsskapare att licensiera sitt innehåll till plattformen också. Men för tillfället är Perplexity Publishers Program fokuserat på etablerade nyhetsorganisationer.

Syftet med det här programmet är att ge Perplexity ett sätt att dela de intäkter som genereras från att använda partnerinnehåll, snarare än att bara aggregera och visa det utan ersättning. Detta representerar ett försök från Perplexity att bygga ömsesidigt fördelaktiga relationer med innehållsskapare vars arbete presenteras på dess plattform.

Leonardo AI förvärvat av Canva

Den stora nyheten den här veckan är att bildgenereringsverktyget Leonardo AI har förvärvats av designplattformen Canva. Detta är en betydande utveckling av flera anledningar:

  1. Integration med Canva: Med Leonardo AI nu en del av Canva-ekosystemet

FAQ