Apple rejoint le conseil d'administration d'OpenAI, piratage d'OpenAI, jailbreaks et autres nouvelles de l'IA

Découvrez les dernières nouvelles et développements de l'IA, notamment la place d'Apple au conseil d'administration d'OpenAI, les progrès de l'IA sur les appareils, un nouvel outil d'isolation vocale et les préoccupations de sécurité concernant le piratage interne d'OpenAI. Explorez l'évolution du paysage du calcul IA et son impact sur l'avenir des médias et de la technologie.

17 février 2025

party-gif

Ce billet de blog offre un aperçu complet des derniers développements dans l'industrie de l'IA, couvrant une gamme de sujets allant de l'implication d'Apple avec OpenAI à la sortie de nouveaux modèles et outils d'IA. Les lecteurs acquerront des informations sur l'évolution du paysage de la technologie de l'IA, y compris les progrès dans le traitement de l'IA sur les appareils, les capacités vocales et la génération d'actifs 3D. De plus, le message aborde les préoccupations et les violations de sécurité importantes au sein de la communauté de l'IA, offrant une perspective bien équilibrée sur l'état actuel du domaine.

Apple rejoint le conseil d'administration d'OpenAI : un mouvement surprenant

Il a été rapporté qu'Apple obtient un siège d'observateur au conseil d'administration d'OpenAI. C'est une décision surprenante, car Microsoft a dû acheter la moitié d'OpenAI pour obtenir un siège au conseil, tandis qu'Apple ne paie rien à OpenAI mais obtient quand même un siège. Le siège a été choisi pour Phil Schiller, l'ancien directeur marketing d'Apple.

Cette nouvelle est intéressante car après les annonces d'IA d'Apple, il était clair qu'ils gardaient OpenAI à distance en termes de partenariat. Tout le monde pensait que ChatGPT serait profondément intégré dans l'écosystème Apple, mais il s'avère qu'Apple a développé beaucoup de sa propre intelligence artificielle en interne pour fonctionner sur ses appareils et dans son cloud privé. Toute tâche nécessitant des connaissances générales est déléguée et envoyée à l'API d'OpenAI, mais seulement après avoir confirmé l'intention de l'utilisateur à chaque fois.

Il semble qu'Apple obtienne le meilleur des deux mondes - ils tirent parti des capacités d'OpenAI tout en développant également leurs propres solutions d'IA internes. Cette décision suggère qu'Apple manœuvre mieux que tout le monde et se positionne stratégiquement dans le paysage de l'IA.

Salesforce dévoile Einstein Tiny Giant : l'essor de l'IA sur les appareils

Mark Benioff, le PDG de Salesforce, a annoncé le lancement de Salesforce Einstein Tiny Giant, un modèle de 1 milliard de paramètres qui surpasse les modèles sept fois plus volumineux, y compris GPT-3.5 et Claude, en termes de performances sur les appareils. Ce développement est une étape importante vers l'avenir du traitement de l'IA, où les modèles plus petits et plus efficaces joueront un rôle essentiel.

Les points clés de Salesforce Einstein Tiny Giant sont :

  • C'est un modèle de 1 milliard de paramètres, ce qui en fait un modèle "micro" dans le monde des modèles de langage de grande taille.
  • Malgré sa taille plus petite, il surpasse les modèles plus volumineux comme GPT-3.5 et Claude en termes de performances sur les appareils.
  • Ce modèle représente l'essor du traitement de l'IA sur les appareils, où les calculs sont effectués localement sur l'appareil de l'utilisateur, plutôt que de s'appuyer sur une infrastructure basée sur le cloud.
  • Le traitement de l'IA sur les appareils offre plusieurs avantages, notamment une meilleure confidentialité, une sécurité accrue, une latence faible et une rentabilité.
  • La vision de Benioff pour l'avenir de la pile IA implique une combinaison de modèles plus petits et spécifiques à une tâche, orchestrés par un modèle généraliste, offrant une efficacité et des performances maximales.
  • La disponibilité de modèles micro open-source comme Salesforce Einstein Tiny Giant est une étape importante vers la réalisation de cette vision de la pile IA du futur.

Dans l'ensemble, l'introduction de Salesforce Einstein Tiny Giant témoigne de l'importance croissante du traitement de l'IA sur les appareils et du potentiel des modèles plus petits et plus spécialisés à surpasser leurs homologues plus volumineux dans certains cas d'utilisation.

Moshi par Open Science : battre OpenAI dans les capacités vocales

Une société nommée Open Science semble avoir devancé OpenAI dans les capacités vocales complètes. Ils ont publié Moshi, un modèle de base multimodal natif en temps réel qui peut écouter et parler, similaire à ce qu'OpenAI a démontré avec GPT-4 en mai. Cependant, les fonctionnalités vocales de GPT-4 sont retardées, et on ne sait pas quand elles seront publiées.

Moshi a plusieurs fonctionnalités impressionnantes :

  • Exprime et comprend les émotions
  • Parle avec un accent de type français
  • Écoute et génère de la parole audio
  • Réfléchit tout en parlant
  • Prend en charge deux flux audio pour écouter et parler en même temps
  • Pré-entraînement conjoint sur des données synthétiques, affiné sur 100 000 conversations synthétiques de style oral converties avec TTS
  • A appris sa voix à partir de données synthétiques générées par un modèle TTS distinct
  • Latence de bout en bout de 200 millisecondes
  • Variante plus petite qui fonctionne sur un MacBook ou un GPU de taille grand public
  • Utilise le filigrane pour détecter l'audio généré par l'IA
  • Sera entièrement open-source bientôt, y compris la démo, le code, le modèle et le document

Bien que l'auteur ait essayé la démo et l'ait trouvée incohérente, il est impatient de la tester à nouveau une fois que la version open-source sera disponible. La capacité d'avoir un modèle de base multimodal en temps réel qui peut écouter et parler est une avancée importante, et il sera intéressant de voir comment Moshi se comportera par rapport aux futures capacités vocales d'OpenAI.

L'avenir du calcul : un changement de paradigme

Selon Andrew Karpathy, une voix de premier plan dans le domaine de l'intelligence artificielle et cofondateur d'OpenAI, la nature du calcul subit un changement fondamental. Nous entrons dans un nouveau paradigme de calcul, similaire aux années 1980 de l'informatique.

Au lieu d'une unité centrale de traitement qui travaille sur des instructions sur des octets, nous avons maintenant de grands modèles de langage qui agissent comme l'unité centrale de traitement, travaillant sur des jetons (petits morceaux de chaîne de caractères) plutôt que sur des octets. De plus, nous avons une fenêtre de contexte de jetons au lieu d'une mémoire vive d'octets, et des équivalents d'autres composants informatiques.

Karpathy qualifie ce nouveau "ordinateur" de grand modèle de langage (LLM), et il le voit comme un nouveau système que nous apprenons tous à programmer. Comprendre ses forces, ses limites et comment l'intégrer efficacement dans les produits sera crucial dans les années à venir.

Ce changement de paradigme de calcul suggère que les systèmes d'exploitation et les applications traditionnels peuvent ne plus être nécessaires. L'avenir pourrait impliquer de s'adresser directement à un grand modèle de langage, qui peut ensuite effectuer les calculs souhaités sur n'importe quel appareil final, sans avoir besoin de développement logiciel traditionnel.

Cette vision de l'avenir remet en question le rôle actuel des développeurs, car Karpathy pense que le besoin de développeurs pourrait diminuer de manière significative dans les 10 prochaines années. Le paysage informatique évolue, et la capacité à exploiter efficacement les grands modèles de langage sera un moteur clé de l'innovation et du progrès dans les années à venir.

Les outils audio innovants de 11 Labs : isolation vocale et voix célèbres

11 Labs, la société d'IA vocale, a lancé deux nouveaux produits passionnants :

  1. Voice Isolator : Cet outil peut enregistrer la parole et extraire une voix cristalline de n'importe quel échantillon audio, même avec un bruit de fond important. La démo montre sa capacité à supprimer le bruit de fond et à fournir un audio de haute qualité, ce qui peut être incroyablement utile pour enregistrer des interviews ou des appels vidéo dans des environnements bruyants.

  2. Famous Voices : 11 Labs apporte les voix de célébrités à leur application iOS, permettant aux utilisateurs de faire dire ce qu'ils veulent à des icônes hollywoodiennes historiques comme James Dean, Judy Garland, Bert Reynolds et Sir Lawrence Olivier. Cette fonctionnalité démontre l'avenir des médias, où les propriétaires de droits de propriété intellectuelle peuvent vendre les droits de reproduire la voix et l'image d'une personne aux sociétés d'IA.

Ces outils audio innovants de 11 Labs illustrent les progrès de la technologie vocale et le potentiel de l'IA pour transformer diverses industries, de la création de contenu à la communication. Les capacités d'isolation vocale peuvent améliorer considérablement la qualité des enregistrements audio, tandis que la fonctionnalité des voix de célébrités ouvre de nouvelles possibilités pour des expériences médiatiques personnalisées.

Perplexity Pro Search : faire progresser le raisonnement à plusieurs étapes et les capacités de codage

Perplexity a annoncé une version mise à jour de Pro Search qui peut effectuer des recherches plus approfondies sur des requêtes plus complexes avec un raisonnement à plusieurs étapes, ainsi que des capacités mathématiques et de programmation avancées.

Les principales fonctionnalités de la version mise à jour de Perplexity Pro Search incluent :

  1. Raisonnement à plusieurs étapes : Le système aborde maintenant les problèmes complexes avec un raisonnement plus approfondi en plusieurs étapes. Il comprend quand une question nécessite une planification, travaille étape par étape pour atteindre les objectifs et synthétise des réponses approfondies avec une plus grande efficacité.

  2. Wolfram Alpha et exécution de code : Perplexity Pro Search a ajouté des capacités mathématiques et de programmation avancées, lui permettant de résoudre des problèmes complexes nécessitant l'exécution de code, comme le problème du "cadran de nuit" pour 100 sauts.

  3. Amélioration de la gestion des requêtes : Le système mis à jour peut gérer des requêtes plus complexes, les décomposant en plusieurs étapes pour fournir des réponses complètes et bien raisonnées.

Ces améliorations font de Perplexity Pro Search un outil de recherche plus puissant, capable de s'attaquer à des questions complexes nécessitant une planification, un raisonnement et l'intégration de diverses sources d'information. L'ajout de capacités mathématiques et de codage avancées étend davantage les capacités de résolution de problèmes du système.

Bien que l'auteur n'ait pas beaucoup utilisé Perplexity, les nouvelles fonctionnalités suggèrent qu'il pourrait s'agir d'une ressource précieuse pour ceux qui recherchent des réponses approfondies et multidimensionnelles à des requêtes complexes. La décision d'utiliser Perplexity Pro Search dépendra des besoins individuels et de la valeur qu'il apporte par rapport aux autres outils disponibles.

Meta 3D Gen : transformer la création d'actifs 3D

Meta, le géant de la technologie, a dévoilé un nouveau système révolutionnaire appelé Meta 3D Gen. Cet outil innovant alimenté par l'IA est conçu pour révolutionner la création d'actifs 3D, offrant une solution de bout en bout fluide et efficace.

Meta 3D Gen est un système d'IA combiné qui peut générer des actifs 3D de haute qualité, y compris des textures détaillées et des cartes de matériaux, à partir de simples invites textuelles. Cette capacité remarquable permet aux créateurs de produire du contenu 3D époustouflant dans une fraction du temps qu'il faudrait normalement en utilisant des méthodes traditionnelles.

Les performances du système sont vraiment impressionnantes, avec la capacité de générer des résultats supérieurs aux solutions existantes, tout en fonctionnant à une vitesse 3 à 10 fois plus rapide. Cette amélioration significative de l'efficacité et de la qualité est un changement de paradigme pour l'industrie de la création d'actifs 3D.

En tirant parti de la puissance de l'IA, Meta 3D Gen permet aux créateurs de se concentrer sur leur vision créative, plutôt que d'être submergés par les complexités techniques de la modélisation 3D et de la texture. Ce changement dans le flux de travail créatif a le potentiel de déverrouiller de nouvelles possibilités et d'inspirer une nouvelle ère de création de contenu 3D.

Meta a en outre renforcé ce projet en publiant deux documents de recherche liés à Meta 3D Gen, fournissant des informations précieuses et des détails techniques pour que la communauté plus large puisse explorer et s'appuyer dessus.

Alors que le paysage médiatique continue d'évoluer, la capacité de générer dynamiquement et à la demande des actifs 3D sera un atout crucial. Les capacités de Meta 3D Gen s'alignent sur la tendance émergente du contenu personnalisé et sur mesure, où les jeux vidéo, les films et d'autres médias peuvent être générés en temps réel pour répondre aux préférences individuelles.

Cette technologie innovante de Meta est le témoignage de l'engagement de l'entreprise à repousser les limites de ce qui est possible dans le domaine de la création d'actifs 3D. Avec Meta 3D Gen, l'avenir de la création de médias et de contenu est sur le point de subir une transformation révolutionnaire.

GPT-4All 3.0 : l'application de bureau locale open source pour les LLM

Le projet original qui permettait d'exécuter des modèles localement s'appelle GPT-4All, et maintenant ils ont publié GPT-4All 3.0. L'année dernière, le modèle LLaMA original d'Meta AI a été divulgué, et les incroyables gens de Nomic AI, les créateurs de GPT-4All, ont pu construire une application où vous pouvez en fait exécuter LLaMA localement.

GPT-4All 3.0 est la dernière version de cette application de bureau LLM locale open-source. Il prend maintenant en charge des milliers de modèles et tous les principaux systèmes d'exploitation, avec des améliorations majeures de l'interface utilisateur et de l'expérience utilisateur. Je l'ai examiné et utilisé, et c'est vraiment agréable, épuré et conçu pour les gens qui ne veulent pas se soucier des complexités de l'exécution de modèles localement. C'est un excellent moyen d'exécuter des modèles sans se préoccuper des détails techniques.

Le logiciel est complètement open-source, sous licence MIT, et vous pouvez le télécharger et l'installer dès aujourd'hui. Il a un chat de fichiers locaux intégré, en faire un moyen convivial d'interagir avec de grands modèles de langage sur votre propre appareil.

L'initiative d'évaluation des modèles d'Anthropic : assurer la sécurité et la cohérence

Anthropic, la société derrière le modèle de langage très performant Claude 3.5, a annoncé une nouvelle initiative pour relever les défis du développement d'évaluations de haute qualité et pertinentes pour la sécurité des modèles d'IA avancés. La demande de ces évaluations dépasse l'offre, et Anthropic prend des mesures pour s'attaquer à ce problème.

Les points clés de cette initiative sont :

  1. **

FAQ