Actualités IA : Une semaine chargée dans les progrès et les développements de l'IA

Découvrez les dernières avancées et développements de l'IA de la semaine passée, notamment la fonctionnalité vocale avancée d'OpenAI, les capacités de sortie longue de GPT-4, les revendications de compétition IA de Microsoft et les mises à jour de Google, Anthropic, Meta et plus encore. Restez à la pointe de l'évolution constante du monde de l'IA.

18 février 2025

party-gif

Ce billet de blog offre un aperçu complet des dernières avancées dans le monde de l'IA, couvrant un large éventail de sujets, des nouvelles fonctionnalités vocales dans ChatGPT d'OpenAI à l'acquisition de Leonardo AI par Canva. Les lecteurs acquerront des informations sur le paysage de l'IA en rapide évolution et les développements passionnants qui façonnent l'avenir de cette technologie.

La fonctionnalité vocale avancée d'Open AI

Open AI a commencé à déployer une fonctionnalité vocale avancée à un petit nombre d'utilisateurs. Cette nouvelle fonctionnalité permet aux utilisateurs de générer des voix semblables à celles des humains, y compris la capacité d'imiter des voix comme celle de Scarlett Johansson.

Principaux points saillants du mode vocal avancé :

  • Les utilisateurs ayant accès peuvent essayer l'option "Mode vocal avancé" au bas de la fenêtre de discussion.
  • Il peut générer des voix très réalistes, y compris la capacité d'imiter les voix de célébrités et de personnalités publiques.
  • Les utilisateurs peuvent interrompre la voix pendant qu'elle parle, une fonctionnalité non disponible dans l'application standard de chat GPT.
  • Les démonstrations montrent que le modèle vocal peut compter très rapidement, simulant même le besoin de respirer.

Sortie longue de GPT-4

Open AI a récemment déployé une version expérimentale de GPT-4 appelée "GPT-4 Long Output". Ce nouveau modèle a une sortie maximale de 64 000 jetons par requête, permettant des réponses beaucoup plus longues et plus détaillées par rapport au modèle GPT-4 standard.

Le modèle GPT-4 Long Output n'est actuellement accessible qu'à un groupe restreint de participants Alpha et n'est pas encore accessible au grand public. Cette version expérimentale est conçue pour permettre aux utilisateurs de générer des sorties extrêmement longues et complètes en réponse à leurs requêtes.

Bien que les détails de l'architecture du modèle et de son processus de formation n'aient pas été divulgués publiquement, l'augmentation de la longueur de la sortie est probablement réalisée grâce à des progrès dans les capacités de mémoire et de raisonnement du modèle. Cela lui permet de maintenir le contexte et la cohérence sur un texte beaucoup plus long, lui permettant de fournir des réponses plus détaillées et approfondies.

Open AI en tant que concurrent de Microsoft

Cette semaine, Microsoft affirme maintenant qu'Open AI est un concurrent dans l'IA et la recherche. C'est intéressant car Microsoft a investi 13 milliards de dollars dans Open AI et possède 49 % de la société.

Dans leurs rapports financiers, Microsoft a répertorié des entreprises comme Anthropic, Open AI, Meta et d'autres offres open source comme concurrentes de leurs offres d'IA. C'est étrange de voir cela, car Open AI est détenu à 49 % par Microsoft et ils ont des accords de partenariat avec Meta également.

Il semble que Microsoft considère maintenant Open AI comme un concurrent de ses propres activités de recherche et de publicité sur les moteurs de recherche et les actualités, bien qu'ils aient une participation importante dans l'entreprise. C'est une dynamique très intéressante qui s'est développée entre les deux entreprises.

L'approbation d'Open AI de la réglementation de l'IA

Open AI a cette semaine approuvé quelques projets de loi du Sénat liés à la réglementation et à la sécurité de l'IA. Cela inclut le projet de loi sur l'avenir de l'innovation en IA, qui autoriserait officiellement l'Institut américain de sécurité de l'IA en tant qu'organisme fédéral chargé d'établir des normes et des lignes directrices pour les modèles d'IA.

Open AI a également approuvé la loi sur l'éducation à l'IA de la NSF et la loi CREATE AI, qui prévoient des bourses fédérales pour la recherche en IA et établissent des ressources éducatives en IA dans les collèges et les écoles primaires et secondaires.

Ces approbations d'Open AI servent probablement à aider l'entreprise à avoir une place à la table dans les futures discussions sur la réglementation de l'IA. En tant que grande entreprise d'IA, Open AI est susceptible d'être soumise à un examen réglementaire à l'avenir. En approuvant ces projets de loi, Open AI peut contribuer à orienter la direction de la réglementation et à s'assurer que ses intérêts sont représentés.

Anthropic lance Claud au Brésil

Bonne nouvelle pour ceux qui se trouvent au Brésil - Anthropic a lancé son assistant IA Claud dans le pays cette semaine. Claud est maintenant accessible aux utilisateurs brésiliens.

Google a également fait des vagues dans le monde de l'IA cette semaine. Ils ont publié une nouvelle version de Gemini 1.5 Pro, l'appelant version 0801 qui est disponible à l'utilisation dès maintenant dans l'AI Studio de Google.

Pour y accéder, vous pouvez aller sur AI Studio .g google.com et sous la liste déroulante "Modèle", vous verrez "Gemini 1.5 Pro expérimental 0801" - c'est le modèle que vous voulez utiliser.

Lorsque vous discutez avec ce nouveau modèle Gemini 1.5 Pro, il a dépassé le classement sur lm.org, surpassant même GPT-4, GPT-4 Mini, CLAE 3.5 et Sonet.

Google's Gemini 1.5 Pro et autres modèles d'IA

Cette semaine, Google a ajouté de nouvelles fonctionnalités alimentées par l'IA à son navigateur Chrome :

  1. Google Lens sur Chrome Desktop : Vous pouvez maintenant utiliser Google Lens pour rechercher des informations sur des objets dans les images directement depuis le navigateur Chrome. Il suffit de sélectionner une zone de l'image et Lens effectuera une recherche sur les produits similaires ou identifiera l'objet.

  2. Comparaison de produits : Chrome dispose désormais d'une fonctionnalité intégrée qui vous permet de comparer des produits entre différents onglets et sites web. Cela facilite la recherche et la comparaison d'articles sans avoir à passer d'un onglet à l'autre.

  3. Historique de recherche en langage naturel : Vous pouvez maintenant utiliser le langage naturel pour rechercher dans votre historique de navigation Chrome. Par exemple, vous pouvez demander "Quel était le glacier que j'ai regardé la semaine dernière ?" et Chrome affichera les informations pertinentes de votre historique de recherche.

Nouvelles fonctionnalités IA de Google Chrome

Cette semaine, Meta a supprimé l'une des fonctionnalités qu'elle avait annoncées lors du dernier Meta Connect. Ils avaient présenté des chatbots IA ressemblant à des célébrités, mais qui n'étaient pas les véritables chatbots de ces personnes célèbres - ils n'utilisaient que leur visage mais étaient formés sur des informations différentes. Cependant, personne n'a vraiment aimé cela, alors Meta s'en est débarrassé.

Mais ils l'ont remplacé par autre chose - maintenant, n'importe qui peut créer sa propre IA personnalisée. Meta a déployé un studio IA, et l'un de mes amis, Don Allen Stevenson, fait partie des personnes qui ont eu un accès anticipé.

Cette nouvelle fonctionnalité permet à n'importe qui de créer des personnages IA en fonction de leurs intérêts. Vous pouvez aller sur ai.meta.com/AI-Studio et créer votre propre personnage IA personnalisé, en choisissant des options comme animal de compagnie IA, tuteur privé, fan, artiste imaginatif, planche à idées, concepteur créatif, styliste personnel, et plus encore.

Les chatbots IA tués par Meta et le nouveau studio IA

Perplexity, le moteur de recherche alimenté par l'IA, a annoncé le programme Perplexity Publishers. Ce programme vise à partager les revenus avec des partenaires spécifiques dont le contenu est utilisé comme source d'information sur la plateforme Perplexity.

Le premier groupe de partenaires inclus dans ce programme sont :

  • Time
  • Der Spiegel
  • Fortune
  • Entrepreneur
  • The Texas Tribune
  • WordPress.com

Bien que ce programme ne concerne actuellement que de plus grands éditeurs, Perplexity a exprimé l'espoir qu'à l'avenir, il pourra également inciter les blogueurs et créateurs de contenu ordinaires à concéder leurs droits de contenu à la plateforme.

Modèle Segment Anything 2 de Meta

Cette semaine, la grande nouvelle est que Leonardo AI, l'un des principaux outils de génération d'images IA, a été acquis par la plateforme de conception Canva. C'est un développement important pour plusieurs raisons :

  1. Intégration à Canva : Avec Leonardo AI désormais intégré à l'écosystème Canva, les utilisateurs pourront éventuellement accéder aux puissantes capacités de génération d'images directement au sein de la plateforme Canva. Cela facilitera la création d'images de haute qualité générées par IA sans avoir à passer entre plusieurs outils.

  2. Amélioration de l'IA Canva : Les capacités actuelles de génération d'images IA de Canva ont été quelque peu limitées par rapport à d'autres outils comme DALL-E et Midjourney. En intégrant le modèle propriétaire "Phoenix" de Leonardo, les capacités de génération d'images IA de Canva devraient s'améliorer de manière significative, permettant aux utilisateurs de créer des visuels encore plus impressionnants.

Programme des éditeurs Perplexity

Cette semaine, Midjourney a publié la version 6.1, qui améliore grandement la qualité des images, la cohérence et le traitement du texte. Quelques points clés :

  • Amélioration significative de la qualité et de la cohérence des images. Les exemples présentés démontrent un niveau élevé de réalisme difficile à distinguer des images réelles.

  • Meilleure gestion des invites textuelles, même pour les mots absurdes ou inventés. Le modèle semble comprendre l'intention derrière le texte et génère des images appropriées.

  • Un nouveau modèle de mise à l'échelle et de personnalisation qui améliore encore davantage les images générées.

Leonardo AI acquis par Canva

Il y a eu quelques nouveaux progrès dans la génération de modèles 3D à l'aide de l'IA :

  1. Edify 3D par NVIDIA et Shutterstock :

    • Edify 3D est un nouveau modèle développé en collaboration entre NVIDIA et Shutterstock.
    • Il permet de générer des modèles 3D à partir d'invites textuelles sur le site web build.nvidia.com.
    • Par exemple, vous pouvez saisir une invite comme "un loup gris hurlant à la lune" et il générera des aperçus de modèles 3D.
    • Vous pouvez ensuite sélectionner l'aperçu que vous aimez et générer le modèle 3D complet.
  2. Stable Fast 3D par Stability AI :

    • Stable Fast 3D est un modèle de génération rapide d'actifs 3D de Stability AI.
    • Il peut générer des modèles 3D à partir d'images uniques en moins d'une seconde.
    • Le modèle est disponible via l'API Stable Assistant et sur Hugging Face.

Mise à jour 6.1 de Mid Journey

Runway, la plateforme de création vidéo alimentée par l'IA, a fait des progrès significatifs cette semaine avec l'introduction de deux nouvelles fonctionnalités : la conversion d'image en vidéo et Gen 3 Alpha Turbo.

Conversion d'image en vidéo

Runway a maintenant déployé un modèle de conversion d'image en vidéo, permettant aux utilisateurs de transformer des images statiques en contenu vidéo dynamique. Cette fonctionnalité est un ajout important aux capacités de Runway, car elle permet aux utilisateurs de donner vie à leurs images de manière fluide et attrayante.

Gen 3 Alpha Turbo

En plus du modèle de conversion d'image en vidéo, Runway a également annoncé la sortie de Gen 3 Alpha Turbo, une version plus rapide et plus efficace de leur modèle de génération vidéo Gen 3 Alpha. Selon les démonstrations de Runway, Gen 3 Alpha Turbo peut générer des sorties vidéo beaucoup plus rapidement que la version précédente, avec un temps de génération de seulement 11 secondes.

Nouveaux générateurs de modèles 3D

Vimeo, la plateforme populaire d'hébergement de vidéos, déploie une nouvelle fonctionnalité permettant aux utilisateurs de traduire automatiquement leurs vidéos dans n'importe quelle langue en utilisant la voix du locuteur. Cette fonctionnalité est particulièrement utile pour les créateurs qui souhaitent localiser leur contenu et le rendre accessible à un public mondial.

Le fonctionnement est le suivant : le système de Vimeo prendra l'audio de la vidéo d'origine et le traduira dans la langue souhaitée, tout en préservant la voix du locuteur. Cela signifie que la version traduite aura un son naturel et fluide, sans avoir besoin de réenregistrer ou d'engager un comédien de doublage.

Le nouveau modèle Flux de Black Forest Labs

Anthropic a répondu aux poursuites judiciaires intentées contre eux, affirmant qu'ils ont utilisé des données publiquement disponibles sur Internet pour former leurs modèles. Ils reconnaissent que ces données ont pu inclure certaines informations protégées par le droit d'auteur, mais affirment que ce n'était pas leur intention.

Antropic fait valoir que leurs modèles apprennent de la même manière que les humains - en consommant de grandes quantités d'informations publiquement disponibles. Ils affirment avoir mis en place des garde-fous pour empêcher la génération de contenu reproduisant directement des œuvres protégées par le droit d'auteur.

Antropic déclare également avoir été surpris par les poursuites, car ils collaboraient avec de nombreux acteurs de l'industrie musicale qui étaient enthousiastes à propos de cette technologie. Dans l'ensemble, Anthropic semble défendre ses pratiques et affirmer que son utilisation de données publiquement disponibles relève du principe d'utilisation équitable.

Image vers vidéo et Gen 3 Alpha Turbo de Runway

Il y a eu cette semaine d'autres nouvelles et mises à jour liées à l'IA :

  1. Grève des interprètes de jeux vidéo concernant l'IA : Les interprètes de jeux vidéo font grève en raison de leurs inquiétudes concernant le fait que les entreprises de jeux pourraient utiliser l'IA pour reproduire leurs voix ou créer des répliques numériques de leur apparence sans leur consentement ni une juste rémunération.

  2. Taco Bell déploie l'IA dans les drive-in : Taco Bell prévoit d'utiliser la technologie de reconnaissance vocale IA dans des centaines de ses points de vente drive-in aux États-Unis d'ici la fin de 2024. Cependant, les tentatives passées d'entreprises comme Wendy's et McDonald's avec des drive-in pilotés par l'IA ont eu des résultats mitigés.

  3. Une brosse à dents IA prétend améliorer la santé bucco-dentaire : Une nouvelle brosse à dents alimentée par l'IA prétend utiliser des algorithmes avancés et des applications compag

FAQ