Apple går med i OpenAIs styrelse, OpenAI-hack, jailbreaks och mer AI-nyheter

Upptäck de senaste nyheterna och utvecklingarna inom AI, inklusive Apples plats i OpenAIs styrelse, framsteg inom AI på enheten, ett nytt verktyg för röljsolering och säkerhetsfrågor kring OpenAIs interna hackande. Utforska den utvecklande landskapet av AI-beräkning och dess inverkan på framtiden för media och teknik.

16 februari 2025

Det här blogginlägget erbjuder en omfattande översikt över de senaste utvecklingarna inom AI-industrin, som täcker ett brett spektrum av ämnen från Apples engagemang med OpenAI till lanseringen av nya AI-modeller och verktyg. Läsarna kommer att få insikter i den utvecklande landskapet av AI-teknik, inklusive framsteg inom AI-bearbetning på enheten, röstfunktioner och generering av 3D-tillgångar. Dessutom behandlar inlägget viktiga säkerhetsfrågor och intrång inom AI-gemenskapen, vilket ger en väl avrundad bild av det aktuella läget inom området.

Apple går med i OpenAIs styrelse: En överraskande rörelse
Salesforce avslöjar Einstein Tiny Giant: Uppgången av AI på enheten
Moshi av Open Science: Slår OpenAI i röstkapacitet
Framtiden för beräkning: Ett paradigmskifte
11 Labs' innovativa ljudverktyg: Röstisoleringoch kända röster
Perplexity Pro Search: Framsteg inom flerstegstänkande och kodningskapacitet
Meta 3D Gen: Transformering av 3D-tillgångsskapande
GPT-4All 3.0: Den öppna källkodens lokala LLM-skrivbordsapp
Anthropics modellbedömningsinitativ: Säkerställa säkerhet och konsekvens
Skeleton Key AI Jailbreak: Kringgå säkerhetsprotokoll
OpenAIs säkerhetsproblem: Hackade meddelandesystem och okrypterade chattloggar
Slutsats

Apple går med i OpenAIs styrelse: En överraskande rörelse

Det har rapporterats att Apple får en plats som styrelseobservatör i OpenAIs styrelse. Detta är ett överraskande drag, eftersom Microsoft var tvungen att köpa hälften av OpenAI för att få en styrelsepost, medan Apple inte betalar något till OpenAI men ändå får en styrelsepost. Posten har tilldelats Phil Schiller, Apples tidigare marknadschef.

Denna nyhet är intressant eftersom det efter Apples AI-tillkännagivanden var tydligt att de höll OpenAI på armlängds avstånd när det gäller deras partnerskap. Alla trodde att ChatGPT skulle vara djupt integrerad i Apples ekosystem, men det visar sig att Apple har utvecklat mycket av sin egen artificiella intelligens internt för att köra på sina enheter och i sin privata molntjänst. Alla uppgifter som kräver världskunskap skickas och offloadas till OpenAIs API, men bara efter att ha bekräftat användarens avsikt varje gång.

Det verkar som att Apple får det bästa av två världar - de utnyttjar OpenAIs möjligheter samtidigt som de också utvecklar sina egna AI-lösningar internt. Detta drag tyder på att Apple manövrerar om alla andra och strategiskt positionerar sig på AI-landskapet.

Salesforce avslöjar Einstein Tiny Giant: Uppgången av AI på enheten

Mark Benioff, VD för Salesforce, har tillkännagett lanseringen av Salesforce Einstein Tiny Giant, en modell med 1 miljard parametrar som överträffar modeller sju gånger sin storlek, inklusive GPT-3.5 och Claude, när det gäller prestanda på enheten. Denna utveckling är ett betydande steg mot framtiden för AI-bearbetning, där mindre och mer effektiva modeller kommer att spela en avgörande roll.

De viktigaste höjdpunkterna för Salesforce Einstein Tiny Giant är:

Det är en modell med 1 miljard parametrar, vilket gör den till en "mikro"-modell i världen av stora språkmodeller.
Trots sin mindre storlek överträffar den större modeller som GPT-3.5 och Claude när det gäller prestanda på enheten.
Denna modell representerar uppgången av AI-bearbetning på enheten, där beräkningar utförs lokalt på användarens enhet, snarare än att förlita sig på molnbaserad infrastruktur.
AI-bearbetning på enheten erbjuder flera fördelar, inklusive förbättrad integritet, säkerhet, låg fördröjning och kostnadseffektivitet.
Benioffs vision för framtiden för AI-stacken inbegriper en kombination av mindre, uppgiftsspecifika modeller som samordnas av en generalistmodell, vilket ger maximal effektivitet och prestanda.
Tillgången till öppna källkods-mikromodeller som Salesforce Einstein Tiny Giant är ett viktigt steg mot att förverkliga denna vision av framtidens AI-stack.

Sammanfattningsvis är lanseringen av Salesforce Einstein Tiny Giant ett bevis på den växande betydelsen av AI-bearbetning på enheten och potentialen hos mindre, mer specialiserade modeller att överträffa sina större motsvarigheter i vissa användningsfall.

Moshi av Open Science: Slår OpenAI i röstkapacitet

Ett företag som heter Open Science verkar ha slagit OpenAI till att få fullständiga röstfunktioner. De har släppt Moshi, en realtidsbaserad, infödingsbaserad, multimodal grundmodell som kan lyssna och tala, liknande det som OpenAI demonstrerade med GPT-4 i maj. GPT-4:s röstfunktionalitet är dock försenad, och det är oklart när den kommer att släppas.

Moshi har flera imponerande funktioner:

Uttrycker och förstår känslor
Talar med en fransk-liknande accent
Lyssnar och genererar talad audio
Tänker medan den talar
Stöder två ljudströmmar för att lyssna och tala samtidigt
Gemensam förträning på syntetiska data, finslipade på 100 000 muntliga syntetiska samtal som konverterats med TTS
Lärde sig sin röst från syntetiska data som genererats av en separat TTS-modell
Sluttid på 200 millisekunder
Mindre variant som kan köras på en MacBook eller konsument-GPU
Använder vattenmärkning för att upptäcka AI-genererad audio
Kommer snart att vara helt öppen källkod, inklusive demo, kod, modell och artikel

Medan författaren har provat demot och funnit det inkonsekvent, ser de fram emot att testa det igen när den öppna källkodversionen blir tillgänglig. Möjligheten att ha en realtids, multimodal grundmodell som kan lyssna och tala är en betydande framsteg, och det kommer att vara intressant att se hur Moshi presterar jämfört med OpenAIs framtida röstfunktioner.

Framtiden för beräkning: Ett paradigmskifte

Enligt Andrew Karpathy, en ledande röst inom artificiell intelligens och medgrundare av OpenAI, genomgår beräkningens natur en fundamental förändring. Vi går in i ett nytt beräkningsparadigm, liknande 1980-talets datorisering.

Istället för en central processor som arbetar med instruktioner över byte har vi nu stora språkmodeller som fungerar som den centrala processorn, som arbetar med tokens (små strängsegment) snarare än byte. Dessutom har vi ett kontextfönster av tokens istället för ett RAM av byte, och motsvarigheter till andra datorkomponenter.

Karpathy kallar denna nya "dator" för den stora språkmodellen (LLM), och han ser detta som ett nytt system som vi alla lär oss att programmera. Att förstå dess styrkor, begränsningar och hur man effektivt integrerar den i produkter är avgörande under de kommande åren.

Denna förskjutning i beräkningsparadigmet tyder på att de traditionella operativsystemen och applikationerna kanske inte längre behövs. Framtiden kan innebära att man talar direkt med en stor språkmodell, som sedan kan utföra önskade beräkningar på valfri slutenhet, utan behov av traditionell programutveckling.

Denna vision av framtiden utmanar den nuvarande rollen för utvecklare, eftersom Karpathy tror att behovet av utvecklare kan minska avsevärt under de närmaste 10 åren. Datormiljön utvecklas, och förmågan att utnyttja stora språkmodeller effektivt kommer att vara en nyckeldriv för innovation och framsteg under de kommande åren.

11 Labs' innovativa ljudverktyg: Röstisoleringoch kända röster

11 Labs, AI-röstföretaget, har släppt två nya spännande produkter:

Voice Isolator: Detta verktyg kan spela in tal och extrahera kristallklar röst från alla ljudprover, även med betydande bakgrundsljud. Demonstrationen visar dess förmåga att ta bort bakgrundsljud och ge högkvalitativ ljud, vilket kan vara otroligt användbart för inspelning av intervjuer eller videosamtal i bullriga miljöer.
Kända röster: 11 Labs för in kända röster i sin iOS-app, vilket gör att användare kan låta historiska Hollywoodikoner som James Dean, Judy Garland, Bert Reynolds och Sir Lawrence Olivier säga vad de vill. Denna funktion demonstrerar framtiden för media, där ägare av immateriella rättigheter kan sälja rättigheterna att återge en persons röst och utseende till AI-företag.

Dessa innovativa ljudverktyg från 11 Labs visar framstegen inom röstteknologi och potentialen för AI att transformera olika branscher, från innehållsskapande till kommunikation. Röstisoleringsfunktionerna kan avsevärt förbättra kvaliteten på ljudinspelningar, medan funktionen med kända röster öppnar upp nya möjligheter för personliga medieupplevelser.

Perplexity Pro Search: Framsteg inom flerstegstänkande och kodningskapacitet

Perplexity har tillkännagett en uppdaterad version av Pro Search som kan utföra djupare forskning på mer komplexa frågor med flerstegstänkande, samt avancerade matematik- och programmeringsförmågor.

De viktigaste funktionerna i den uppdaterade Perplexity Pro Search inkluderar:

Flerstegstänkande: Systemet närmar sig nu komplexa problem med mer flerstegstänkande. Det förstår när en fråga kräver planering, arbetar genom mål steg för steg och sammanställer djupgående svar med större effektivitet.
Wolfram Alpha och kodexekvering: Perplexity Pro Search har lagt till avancerade matematik- och programmeringsförmågor, vilket gör det möjligt att lösa komplexa problem som kräver kodexekvering, som "night dial"-problemet för 100 hopp.
Förbättrad frågehantering: Det uppdaterade systemet kan hantera mer komplexa frågor, dela upp dem i flera steg för att ge omfattande och välgrundade svar.

Dessa förbättringar gör Perplexity Pro Search till ett kraftfullare forskningsverktyg, som kan hantera invecklade frågor som kräver planering, tänkande och integrering av olika informationskällor. Tillägget av avancerade matematik- och kodningsförmågor utökar ytterligare systemets problemlösningsförmågor.

Medan författaren inte har använt Perplexity omfattande, tyder de uppdaterade funktionerna på att det skulle kunna vara en värdefull resurs för dem som söker djupgående, mångfacetterade svar på komplexa frågor. Beslutet att använda Perplexity Pro Search beror på individuella behov och det värde det ger jämfört med andra tillgängliga verktyg.

Meta 3D Gen: Transformering av 3D-tillgångsskapande

Meta, teknikjätten, har presenterat ett banbrytande nytt system som heter Meta 3D Gen. Detta innovativa AI-drivna verktyg är utformat för att revolutionera skapandet av 3D-tillgångar, och erbjuder en smidig och effektiv helhetslösning.

Meta 3D Gen är ett kombinerat AI-system som kan generera högkvalitativa 3D-tillgångar, inklusive detaljerade texturer och materialkort, allt från enkla textkommandon. Denna anmärkningsvärda förmåga gör det möjligt för skapare att producera fantastiskt 3D-innehåll på en bråkdel av den tid det normalt skulle ta med traditionella metoder.

Systemets prestanda är verkligen imponerande, med förmågan att generera resultat som är överlägsna befintliga lösningar, samtidigt som det fungerar 3 till 10 gånger snabbare. Denna betydande förbättring av effektivitet och kvalitet är en banbrytande förändring för 3D-tillgångsskapande-industrin.

Genom att utnyttja kraften i AI ger Meta 3D Gen skapare möjlighet att fokusera på sin kreativa vision, snarare än att fastna i de tekniska komplexiteterna i 3D-modellering och texturering. Denna förskjutning i den kreativa arbetsflödet har potential att låsa upp nya möjligheter och inspirera en ny era av 3D-innehållsskapande.

Meta har ytterligare stärkt detta projekt genom att publicera två forskningsartiklar relaterade till Meta 3D Gen, vilket ger värdefulla insikter och tekniska detaljer för det bredare samfundet att utforska och bygga vidare på.

När medielanskapet fortsätter att utvecklas kommer förmågan att dynamiskt och på begäran generera 3D-tillgångar att vara en avgörande tillgång. Meta 3D Gens funktioner ligger i linje med den framväxande trenden av personligt och skräddarsytt innehåll, där videospel, filmer och annat media kan genereras i realtid för att tillgodose individuella preferenser.

Denna innovativa teknik från Meta är ett bevis på företagets engagemang i att driva gränserna för vad som är möjligt inom 3D-tillgångsskapande. Med Meta 3D Gen är framtiden för media och innehållsskapande redo för en transformerande förändring.

GPT-4All 3.0: Den öppna källkodens lokala LLM-skrivbordsapp

Originalprojektet som gjorde det möjligt att köra modeller lokalt heter GPT-4All, och nu har de släppt GPT-4All 3.0. I fjol läckte den ursprungliga LLaMA-modellen från Meta AI, och de fantastiska människorna på Nomic AI, skaparna av GPT-4All, kunde bygga ett program där du faktiskt kan köra LLaMA lokalt.

GPT-4All 3.0 är den senaste versionen av denna öppna källkods-skrivbordapp för lokala LLM. Den stöder nu tusentals modeller och alla större operativsystem, med stora förbättringar av användargränssnitt och användarupplevelse. Jag har tittat på och använt det, och det är verkligen snyggt, rent och gjort för människor som inte vill tänka på komplexiteten i att köra modeller lokalt. Detta är ett bra sätt att köra modeller utan att behöva oroa sig för de tekniska detaljerna.

Programvaran är helt öppen källkod, MIT-licensierad, och du kan ladda ner och installera den idag. Den har inbyggd lokal filchatt, vilket gör det till ett användarvänligt sätt att interagera med stora språkmodeller på din egen enhet.

Anthropics modellbedömningsinitativ: Säkerställa säkerhet och konsekvens

Antropic, företaget bakom den mycket kapabla språkmodellen Claude 3.5, har tillkännagett en ny satsning för att hantera utmaningarna i att utveckla högkvalitativa, säkerhetsrelevanta utvärderingar för avancerade AI-modeller. Efterfrågan på dessa utvärderingar överträffar utbudet, och Anthropic vidtar åtgärder för att hantera detta problem.

De viktigaste punkterna i denna satsning är:

Utveckla effektiva utvärderingar: Anthropic inser att utvecklingen av robusta och omfattande utvärderingar för AI-modeller fortfarande är en utmanande uppgift. Målet är att finansiera tredjepartsorganisationer för att skapa utvärderingar som kan mäta de avancerade förmågorna och säkerheten hos AI-modeller på ett effektivt sätt.
Hantera begränsningar hos statiska referensmätningar: Ett av problemen med befintliga utvärderingsramverk är att de kan vara statiska, vilket gör att modellutvecklare enkelt kan träna sina modeller på de specifika frågor som används i referensmätningarna. Detta kan leda till överanpassning och en falsk känsla av modellens verkliga förmågor. Anthropic strävar efter att stödja skapandet av dynamiska, diversifierade frågeställningar som testar

FAQ

Vad är betydelsen av att Apple går med i OpenAI:s styrelse?

Vad är Salesforce Einstein Tiny Giant, och hur jämför den sig med andra språkmodeller?

Hur jämför Moshi, den multimodala grundmodellen från Open Science, med OpenAI:s GPT-4 när det gäller röstfunktioner?

Vad är Andrew Karpathys syn på datorernas framtid och stora språkmodellers roll?

Vilka är de nya funktionerna och möjligheterna i den uppdaterade Perplexity Pro Search?

Vad är Metas nya 3D-generationssystem, och hur jämför det sig med befintliga lösningar?

Vilka är de viktigaste funktionerna och uppdateringarna i den nya versionen av GPT-4-All?

Vad är Anthropics nya initiativ för utvärderingar av tredjepartsmodeller, och varför är det viktigt?

Vad är 'skeleton key'-AI-jailbreaktekniken, och vilka modeller påverkas av den?

Vilka var de två stora säkerhetsbrister som upptäcktes i OpenAI:s system?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder