Apple si unisce al consiglio di amministrazione di OpenAI, OpenAI Hack, Jailbreaks e altre notizie sull'IA

Scopri le ultime notizie e gli sviluppi sull'IA, inclusa la partecipazione di Apple nel consiglio di amministrazione di OpenAI, i progressi nell'IA on-device, un nuovo strumento di isolamento vocale e le preoccupazioni sulla sicurezza riguardo agli hacker interni di OpenAI. Esplora il panorama in evoluzione dell'elaborazione dell'IA e il suo impatto sul futuro dei media e della tecnologia.

24 febbraio 2025

party-gif

Questo post del blog offre una panoramica completa degli ultimi sviluppi nell'industria dell'IA, coprendo una serie di argomenti dall'impegno di Apple con OpenAI al rilascio di nuovi modelli e strumenti di IA. I lettori acquisiranno informazioni sull'evoluzione del panorama della tecnologia IA, inclusi i progressi nell'elaborazione dell'IA sui dispositivi, le capacità vocali e la generazione di asset 3D. Inoltre, il post affronta importanti problemi di sicurezza e violazioni all'interno della comunità IA, fornendo una prospettiva completa sullo stato attuale del settore.

Apple si unisce al consiglio di amministrazione di OpenAI: una mossa sorprendente

Si è segnalato che Apple sta ottenendo un posto di osservatore nel consiglio di amministrazione di OpenAI. Questo è un movimento sorprendente, poiché Microsoft ha dovuto acquistare metà di OpenAI per ottenere un posto nel consiglio, mentre Apple non sta pagando nulla a OpenAI ma sta comunque ottenendo un posto nel consiglio. Il posto è stato scelto per Phil Schiller, ex capo marketing di Apple.

Questa notizia è interessante perché dopo gli annunci di intelligenza artificiale di Apple, era chiaro che stavano tenendo OpenAI a distanza per quanto riguarda la loro partnership. Tutti pensavano che ChatGPT sarebbe stato profondamente integrato nell'ecosistema Apple, ma si è scoperto che Apple ha sviluppato molte delle sue soluzioni di intelligenza artificiale interne per funzionare sui suoi dispositivi e nel suo cloud privato. Qualsiasi attività che richiede conoscenze del mondo viene scaricata e inviata all'API di OpenAI, ma solo dopo aver confermato l'intenzione dell'utente ogni singola volta.

Sembra che Apple stia ottenendo il meglio di entrambi i mondi: stanno sfruttando le capacità di OpenAI e allo stesso tempo stanno sviluppando le proprie soluzioni di intelligenza artificiale interne. Questa mossa suggerisce che Apple sta superando tutti e si sta posizionando strategicamente nel panorama dell'intelligenza artificiale.

Salesforce presenta Einstein Tiny Giant: l'ascesa dell'AI on-device

Mark Benioff, CEO di Salesforce, ha annunciato il lancio di Salesforce Einstein Tiny Giant, un modello di parametri da 1 miliardo che supera i modelli di dimensioni sette volte superiori, inclusi GPT-3.5 e Claude, sulle prestazioni on-device. Questo sviluppo è un passo significativo verso il futuro dell'elaborazione dell'intelligenza artificiale, dove modelli più piccoli ed efficienti svolgeranno un ruolo cruciale.

I punti salienti chiave di Salesforce Einstein Tiny Giant sono:

  • È un modello di parametri da 1 miliardo, rendendolo un modello "micro" nel mondo dei grandi modelli linguistici.
  • Nonostante le sue dimensioni più piccole, supera i modelli più grandi come GPT-3.5 e Claude sulle prestazioni on-device.
  • Questo modello rappresenta l'ascesa dell'elaborazione dell'intelligenza artificiale on-device, dove i calcoli vengono eseguiti localmente sul dispositivo dell'utente, anziché affidarsi all'infrastruttura basata sul cloud.
  • L'elaborazione dell'intelligenza artificiale on-device offre diversi vantaggi, tra cui una migliore privacy, sicurezza, bassa latenza e convenienza.
  • La visione di Benioff per il futuro dello stack di intelligenza artificiale prevede una combinazione di modelli più piccoli e specifici per il compito, orchestrati da un modello generalista, per ottenere la massima efficienza e prestazioni.
  • La disponibilità di modelli micro open-source come Salesforce Einstein Tiny Giant è un passo significativo verso la realizzazione di questa visione dello stack di intelligenza artificiale del futuro.

Complessivamente, l'introduzione di Salesforce Einstein Tiny Giant è una testimonianza dell'importanza crescente dell'elaborazione dell'intelligenza artificiale on-device e del potenziale dei modelli più piccoli e specializzati di superare i loro omologhi più grandi in determinati casi d'uso.

Moshi di Open Science: battere OpenAI nelle capacità vocali

Una società chiamata Open Science sembra aver battuto OpenAI nella realizzazione di capacità vocali complete. Hanno rilasciato Moshi, un modello di fondazione multimodale nativo in tempo reale che può ascoltare e parlare, simile a ciò che OpenAI ha dimostrato con GPT-4 a maggio. Tuttavia, la funzionalità vocale di GPT-4 è ritardata e non è chiaro quando verrà rilasciata.

Moshi ha diverse caratteristiche impressionanti:

  • Esprime e comprende le emozioni
  • Parla con un accento simile al francese
  • Ascolta e genera discorso audio
  • Pensa mentre parla
  • Supporta due flussi audio per ascoltare e parlare contemporaneamente
  • Pre-addestramento congiunto su dati sintetici, affinato su 100.000 conversazioni sintetiche in stile orale convertite con TTS
  • Ha imparato la sua voce da dati sintetici generati da un modello TTS separato
  • Latenza end-to-end di 200 millisecondi
  • Variante più piccola che funziona su un MacBook o una GPU di dimensioni consumer
  • Utilizza il watermarking per rilevare l'audio generato dall'IA
  • Sarà completamente open-source a breve, inclusa la demo, il codice, il modello e la carta

Mentre l'autore ha provato la demo e l'ha trovata inconsistente, è entusiasta di testarla di nuovo una volta disponibile la versione open-source. La capacità di avere un modello di fondazione multimodale in tempo reale che può ascoltare e parlare è un importante passo avanti, e sarà interessante vedere come si comporta Moshi rispetto alle future capacità vocali di OpenAI.

Il futuro del calcolo: un cambiamento di paradigma

Secondo Andrew Karpathy, una voce leader nell'intelligenza artificiale e co-fondatore di OpenAI, la natura del calcolo sta subendo un cambiamento fondamentale. Stiamo entrando in un nuovo paradigma di calcolo, simile agli anni '80 dell'informatica.

Invece di un'unità centrale di elaborazione che lavora su istruzioni sui byte, ora abbiamo grandi modelli linguistici che fungono da unità centrale di elaborazione, lavorando su token (piccoli pezzi di stringa) anziché su byte. Inoltre, abbiamo una finestra di contesto di token invece di una RAM di byte, e equivalenti di altri componenti informatici.

Karpathy si riferisce a questo nuovo "computer" come il grande modello linguistico (LLM), e lo vede come un nuovo sistema che tutti stiamo imparando a programmare. Comprendere i suoi punti di forza, i suoi limiti e come incorporarlo efficacemente nei prodotti sarà cruciale negli anni a venire.

Questo cambiamento nel paradigma di calcolo suggerisce che i tradizionali sistemi operativi e applicazioni potrebbero non essere più necessari. Il futuro potrebbe comportare il dialogo diretto con un grande modello linguistico, che può quindi eseguire i calcoli desiderati su qualsiasi dispositivo finale, senza la necessità di uno sviluppo software tradizionale.

Questa visione del futuro mette in discussione il ruolo attuale degli sviluppatori, poiché Karpathy ritiene che la necessità di sviluppatori possa diminuire significativamente nei prossimi 10 anni. Il panorama informatico sta evolvendo e la capacità di sfruttare efficacemente i grandi modelli linguistici sarà un fattore chiave per l'innovazione e il progresso negli anni a venire.

Gli strumenti audio innovativi di 11 Labs: isolamento vocale e voci famose

11 Labs, la società di intelligenza artificiale vocale, ha rilasciato due nuovi prodotti entusiasmanti:

  1. Voice Isolator: Questo strumento può registrare la voce ed estrarre un audio cristallino da qualsiasi campione audio, anche con un rumore di fondo significativo. La demo ne dimostra la capacità di rimuovere il rumore di fondo e fornire un audio di alta qualità, il che può essere incredibilmente utile per registrare interviste o videochiamate in ambienti rumorosi.

  2. Famous Voices: 11 Labs sta portando le voci famose nella sua app iOS, permettendo agli utenti di far dire qualsiasi cosa a icone hollywoodiane storiche come James Dean, Judy Garland, Bert Reynolds e Sir Lawrence Olivier. Questa funzionalità dimostra il futuro dei media, in cui i titolari dei diritti di proprietà intellettuale possono vendere i diritti per riprodurre la voce e l'immagine di una persona alle società di intelligenza artificiale.

Questi innovativi strumenti audio di 11 Labs mostrano i progressi nella tecnologia vocale e il potenziale dell'intelligenza artificiale per trasformare vari settori, dalla creazione di contenuti alla comunicazione. Le capacità di isolamento vocale possono migliorare significativamente la qualità delle registrazioni audio, mentre la funzionalità delle voci famose apre nuove possibilità per esperienze di media personalizzate.

Perplexity Pro Search: migliorare il ragionamento multi-step e le capacità di codifica

Perplexity ha annunciato una versione aggiornata di Pro Search in grado di eseguire ricerche più approfondite su query più complesse con ragionamento multi-step, nonché capacità avanzate di matematica e programmazione.

Le principali funzionalità del Perplexity Pro Search aggiornato includono:

  1. Ragionamento Multi-Step: Il sistema affronta ora problemi complessi con un ragionamento più multi-step. Comprende quando una domanda richiede una pianificazione, lavora attraverso gli obiettivi passo dopo passo e sintetizza risposte approfondite con maggiore efficienza.

  2. Wolfram Alpha ed Esecuzione di Codice: Perplexity Pro Search ha aggiunto capacità avanzate di matematica e programmazione, consentendogli di risolvere problemi complessi che richiedono l'esecuzione di codice, come il problema del "night dial" per 100 hop.

  3. Miglioramento della Gestione delle Query: Il sistema aggiornato può gestire query più complesse, suddividendole in più passaggi per fornire risposte esaustive e ben ragionate.

Questi miglioramenti rendono Perplexity Pro Search uno strumento di ricerca più potente, in grado di affrontare domande intricate che richiedono pianificazione, ragionamento e l'integrazione di varie fonti di informazione. L'aggiunta di capacità avanzate di matematica e codifica espande ulteriormente le capacità di risoluzione dei problemi del sistema.

Sebbene l'autore non abbia utilizzato Perplexity in modo estensivo, le funzionalità aggiornate suggeriscono che potrebbe essere una risorsa preziosa per coloro che cercano risposte approfondite e multisfaccettate a query complesse. La decisione di utilizzare Perplexity Pro Search dipenderà dai bisogni individuali e dal valore che offre rispetto ad altri strumenti disponibili.

Meta 3D Gen: trasformare la creazione di asset 3D

Meta, il gigante tecnologico, ha svelato un nuovo rivoluzionario sistema chiamato Meta 3D Gen. Questo innovativo strumento alimentato dall'intelligenza artificiale è progettato per rivoluzionare il modo in cui vengono creati gli asset 3D, offrendo una soluzione end-to-end fluida ed efficiente.

Meta 3D Gen è un sistema di intelligenza artificiale combinato in grado di generare asset 3D di alta qualità, inclusi texture dettagliate e mappe di materiali, tutto partendo da semplici prompt testuali. Questa straordinaria capacità consente ai creatori di produrre contenuti 3D straordinari in una frazione del tempo che normalmente richiederebbe utilizzando i metodi tradizionali.

Le prestazioni del sistema sono davvero impressionanti, con la capacità di generare risultati superiori alle soluzioni esistenti, operando da 3 a 10 volte più velocemente. Questo significativo miglioramento in termini di efficienza e qualità è un punto di svolta per l'industria della creazione di asset 3D.

Sfruttando il potere dell'intelligenza artificiale, Meta 3D Gen permette ai creatori di concentrarsi sulla loro visione creativa, anziché essere appesantiti dalla complessità tecnica della modellazione 3D e della texturizzazione. Questo cambiamento nel flusso di lavoro creativo ha il potenziale di sbloccare nuove possibilità e ispirare una nuova era nella creazione di contenuti 3D.

Meta ha ulteriormente rafforzato questo progetto pubblicando due articoli di ricerca relativi a Meta 3D Gen, fornendo preziosi approfondimenti e dettagli tecnici per l'intera comunità da esplorare e costruire su di essi.

Man mano che il panorama dei media continua a evolversi, la capacità di generare asset 3D in modo dinamico e su richiesta sarà un asset cruciale. Le capacità di Meta 3D Gen si allineano con la tendenza emergente di contenuti personalizzati e su misura, in cui videogiochi, film e altri media possono essere generati in tempo reale per soddisfare le preferenze individuali.

Questa innovativa tecnologia di Meta è una testimonianza dell'impegno dell'azienda nel superare i limiti di ciò che è possibile nel campo della creazione di asset 3D. Con Meta 3D Gen, il futuro della creazione di media e contenuti è pronto per un cambiamento trasformativo.

GPT-4All 3.0: l'app desktop open-source per LLM locali

Il progetto originale che permetteva di eseguire i modelli localmente si chiama GPT-4All, e ora hanno rilasciato GPT-4All 3.0. Lo scorso anno, il modello originale LLaMA di Meta AI è stato diffuso, e gli incredibili ragazzi di Nomic AI, i creatori di GPT-4All, sono riusciti a costruire un'applicazione in cui puoi effettivamente eseguire LLaMA localmente.

GPT-4All 3.0 è la versione più recente di questa app desktop open-source e locale per LLM. Ora supporta migliaia di modelli e tutti i principali sistemi operativi, con importanti miglioramenti dell'interfaccia utente e dell'esperienza utente. L'ho provato e utilizzato, ed è davvero bello, pulito e realizzato per le persone che non vogliono pensare alla complessità dell'esecuzione dei modelli in locale. Questo è un ottimo modo per eseguire i modelli senza preoccuparsi dei dettagli tecnici.

Il software è completamente open-source, con licenza MIT, e puoi scaricarlo e installarlo oggi. Ha una chat con file locali integrata, rendendolo un modo semplice da usare per interagire con i grandi modelli linguistici sul tuo dispositivo.

L'iniziativa di valutazione dei modelli di Anthropic: garantire sicurezza e coerenza

Antropic, l'azienda dietro il modello linguistico altamente capace Claude 3.5, ha annunciato una nuova iniziativa per affrontare le sfide nello sviluppo di valutazioni di alta qualità e rilevanti per la sicurezza per i modelli di intelligenza artificiale avanzati. La domanda di queste valutazioni supera l'offerta, e Anthropic sta intraprendendo azioni per affrontare questo problema.

I punti chiave di questa iniziativa sono:

  1. Sviluppare Valutazioni Efficaci: Anthropic riconosce che sviluppare valutazioni robuste e complete per i modelli di intelligenza artificiale rimane un compito impegnativo. L'obiettivo è finanziare organizzazioni terze per creare valutazioni in grado di misurare efficacemente le capacità avanzate e la sicurezza dei modelli di intelligenza artificiale.

  2. Affrontare i Limiti delle Benchmark Statiche: Uno dei problemi con gli attuali framework di valutazione è che possono essere statici, consentendo agli sviluppatori di modelli di addestrare semplicemente i loro modelli sulle specifiche domande utilizzate nelle benchmark. Ciò può portare a un overfitting e

FAQ