Descubre la IA de voz que nadie esperaba: Moshi AI probado

Descubre Moshi AI, un asistente de voz de baja latencia y de código abierto que tiene como objetivo desafiar a GPT-40. Explora los últimos avances en generación de videos con IA, herramientas de texto a imagen y más noticias e información de vanguardia sobre IA.

15 de febrero de 2025

party-gif

Descubre los últimos avances en IA que puedes usar realmente, desde un asistente de voz de código abierto revolucionario hasta herramientas de generación de video de vanguardia. Explora las aplicaciones prácticas y las implicaciones del mundo real de estas tecnologías transformadoras, y aprende cómo aprovecharlas para mejorar tus propios proyectos y flujos de trabajo.

El sorprendente lanzamiento de Moshi AI: un asistente de voz de baja latencia con potencial de código abierto

En medio del auge del Asistente de Voz GPT-4 de OpenAI, ha surgido un nuevo jugador: Moshi AI, un asistente de voz de código abierto desarrollado por la empresa francesa Cute AI Labs. Esta interfaz web promete interacciones de baja latencia y conciencia emocional en su voz.

Los aspectos clave de Moshi AI son:

  • Baja latencia: Moshi AI tiene como objetivo proporcionar una experiencia de voz en tiempo real e impulsada por interrupciones, a diferencia de las respuestas retrasadas a menudo asociadas con los asistentes de voz.

  • Conciencia emocional: El asistente afirma tener la capacidad de detectar y responder al tono emocional del usuario, aunque esta función no se demostró de manera consistente durante las pruebas.

  • Código abierto: Cute AI Labs planea abrir el código de Moshi AI, lo que permitirá a los desarrolladores integrarlo en sus propias aplicaciones.

La evolución de la generación de videos de IA: explorando las capacidades y limitaciones de GenFree

Hace solo 7 años, el estado del arte en la generación de imágenes de IA era apenas reconocible. Ahora, el último modelo de generación de video, GenFree, ha dado un enorme salto adelante, produciendo visuales sorprendentemente realistas y creativos.

Si bien GenFree es un logro impresionante, es importante entender sus capacidades y limitaciones. El modelo se destaca en la generación de tomas cinematográficas de alta calidad, como imágenes de drones de un faro, gracias a su extensa capacitación en datos visuales relevantes. Sin embargo, tiene dificultades con solicitudes más específicas, como crear una nutria surfista sobre una ola, debido a la falta de ejemplos tan específicos en su entrenamiento.

Una de las principales fortalezas de GenFree es su capacidad para mezclar diferentes estilos artísticos. Al solicitar al modelo que cree una escena con el estilo del pintor holandés Hieronymus Bosch, los resultados son una cautivadora mezcla de fantasía medieval y cinematografía moderna al estilo de GTA.

Dicho esto, el costo de usar GenFree puede acumularse rápidamente. Cada generación de 10 segundos cuesta $1 en créditos, y lograr el resultado deseado a menudo requiere numerosas iteraciones. Esto puede hacer que la herramienta sea prohibitivamente cara para la experimentación casual.

Actualización de los asistentes de voz: 11 Labs expande sus voces icónicas y características de aislamiento de audio

11 Labs ha estado enviando nuevas funciones para su plataforma de asistente de voz. Las actualizaciones clave incluyen:

  1. Voces icónicas: La aplicación lectora de 11 Labs ahora permite a los usuarios en EE. UU., Reino Unido y Canadá que su texto sea leído por voces icónicas como James Dean o Bert Lahr. Esto agrega un toque divertido y único a la experiencia de texto a voz.

  2. Aislamiento de audio: 11 Labs ha lanzado una nueva herramienta de IA que puede aislar las voces del audio ruidoso. Esto permite a los usuarios eliminar el ruido de fondo y obtener un audio cristalino, similar a las funciones lanzadas por otras empresas a principios de este año.

  3. Aplicación móvil para generación de música de IA: Sooner, un AI de generación de música, ha lanzado una aplicación móvil que permite a los usuarios generar música de IA sobre la marcha. Sin embargo, esto se limita actualmente a usuarios de iOS en EE. UU., con una versión para Android y un lanzamiento global planificado una vez que se integren las capacidades multilingües.

Luma AI Keyframes: evaluando la practicidad de las transiciones suaves en los videos de IA

Luma AI también lanzó una nueva función llamada Luma Keyframes. Esta función le permite transformar una cosa en otra, creando transiciones suaves con video de IA.

Decidimos poner a prueba esta función, utilizando las imágenes generadas por Mid-Journey de nuestro video del equipo con temática de Star Wars. La idea era ver qué tan bien manejaría la función Luma Keyframes estas transiciones.

Desafortunadamente, los resultados fueron un poco decepcionantes. De los 8 miembros del equipo que probamos, 8 de las transiciones eran prácticamente inutilizables. La función a menudo resultaba en un corte duro en medio de la escena, en lugar de la transición suave que esperábamos.

Hubo algunas excepciones, como la transición del sable de luz de Ariad, que resultó bastante agradable. Y la transición de Larry entre los personajes tipo Yoda y malvados también tuvo algunos momentos interesantes. Pero en general, los resultados no fueron tan fluidos como habíamos anticipado.

Campaña publicitaria impulsada por IA de Motorola: aprovechando los videos de IA para aplicaciones del mundo real

Motorola ha presentado recientemente un uso creativo de la tecnología de video de IA en su última campaña publicitaria. Al aprovechar herramientas como Control Net y Stable Diffusion, la empresa pudo generar una serie de imágenes que integran sin problemas el logotipo de Motorola en varios estilos inspirados en la moda.

El flujo de trabajo probablemente involucró insertar el logotipo de Motorola en las imágenes usando Control Net y luego usar Stable Diffusion para generar los visuales finales. Estas imágenes se compilaron luego en un anuncio comercial, completo con música y edición, para crear un producto final pulido y visualmente impactante.

Este ejemplo demuestra cómo las empresas están comenzando a explorar las aplicaciones prácticas de la generación de video de IA en el mundo real. Si bien la calidad aún no iguala a los ejemplos de vanguardia presentados por Gen-Free, la campaña publicitaria de Motorola muestra que el video impulsado por IA puede ser una solución viable y rentable para ciertos tipos de creación de contenido.

Búsqueda de Perplexity: mejorando la búsqueda con razonamiento de varios pasos y acceso a datos externos

Perplexity, el motor de búsqueda impulsado por IA, ha introducido una nueva función llamada "Búsqueda Pro" que tiene como objetivo proporcionar capacidades de búsqueda más avanzadas y completas. Esta función integra el razonamiento de varios pasos y el acceso a fuentes de datos externas, como matemáticas, programación y Wolfram Alpha, para ofrecer resultados de búsqueda más precisos e informativos.

Los aspectos clave de la función Perplexity Pro Search incluyen:

  1. Razonamiento de varios pasos: El motor de búsqueda ahora puede descomponer consultas complejas y realizar varios pasos de razonamiento para proporcionar respuestas más completas y relevantes. Esto permite a los usuarios hacer preguntas más matizadas y detalladas, y recibir respuestas a medida.

  2. Integración de datos externos: Perplexity Pro Search ahora puede acceder y aprovechar datos de fuentes externas, como cálculos matemáticos, recursos de programación y la base de conocimientos de Wolfram Alpha. Esta integración permite que el motor de búsqueda proporcione respuestas más precisas e informativas, especialmente para consultas que requieren conocimientos o cálculos especializados.

  3. Función premium: La funcionalidad de Perplexity Pro Search está actualmente disponible como una función premium para los suscriptores de Perplexity. Esto permite a los usuarios que confían regularmente en la plataforma acceder a estas capacidades de búsqueda avanzadas y mejorar su experiencia de búsqueda general.

Interdimensional Cable ONE: un innovador experimento de WebSim AI inspirado en Rick y Morty

Uno de los experimentos de IA más interesantes y divertidos presentados en el video es el sitio web "Interdimensional Cable ONE", compartido por Carol en la comunidad. Este sitio web es una recreación del icónico concepto de "Cable Interdimensional" de la serie animada "Rick y Morty".

En la serie, el tío Rick trae de vuelta un televisor de otra dimensión, lo que permite a los personajes ver estaciones de televisión aleatorias y bizarras a través del multiverso. El equipo de WebSim AI ha reconstruido este concepto utilizando IA web, creando un sitio web que ofrece una experiencia de visualización igualmente aleatoria e impredecible.

Cuando cargas la página de Interdimensional Cable ONE, nunca sabes lo que vas a obtener. Presenta una colección de videos súper aleatorios y psicodélicos, capturando la esencia del concepto de "Cable Interdimensional" de la serie. Este experimento probablemente resuene más con los fanáticos dedicados de "Rick y Morty", quienes apreciarán el cuidado en los detalles y la recreación fiel de la estética única de la serie.

Presentando Dolphin Vision 72B: el modelo de IA sin censura que empuja los límites

Figma, la popular plataforma de diseño, recientemente ha anunciado un conjunto de funciones impulsadas por IA que están listas para revolucionar la forma en que trabajan los diseñadores. Dos de las funciones más destacadas son las capacidades de "Prompt to UI" y "Búsqueda visual".

La función "Prompt to UI" permite a los diseñadores simplemente describir el tipo de interfaz de usuario que desean, y la IA de Figma generará todo el diseño por ellos. Esto tiene el potencial de agilizar drásticamente el proceso de diseño, permitiendo a los diseñadores iterar rápidamente sobre ideas y explorar nuevos conceptos.

Sin embargo, esta función también ha generado cierta controversia, ya que parece haber imitado de cerca el diseño de la aplicación del clima de Apple. Figma ha desactivado esta función desde entonces, reconociendo la necesidad de garantizar que sus diseños generados por IA no infrinjan los derechos de propiedad intelectual existentes.

La función de "Búsqueda visual", por otro lado, es una innovación de aplicación más amplia. Al aprovechar los modelos multimodales avanzados, los diseñadores ahora pueden buscar en toda su biblioteca de diseños utilizando consultas en lenguaje natural, sin depender de metadatos o etiquetas específicas. Esto abre nuevas posibilidades para que los diseñadores encuentren e incorporen rápidamente activos relevantes en sus proyectos.

La revolución de IA de Figma: explorando el potencial y los desafíos de la interfaz de usuario basada en indicaciones y la búsqueda visual

El juego de crucigramas de Google presenta una integración interesante de IA para mejorar la experiencia del jugador. El aspecto clave de esta integración es la capacidad de obtener pistas del sistema de IA.

Cuando el jugador se atasca en una pista, puede solicitar una pista a la IA. La IA luego responderá con un simple "sí" o "no", indicando si el jugador está en el camino correcto con su enfoque actual. Esta respuesta limitada es una elección de diseño deliberada, ya que el equipo detrás del juego intentó solicitar a la IA pistas más detalladas, pero el sistema se negó a proporcionar algo más allá de la retroalimentación binaria de sí/no.

Esta implementación muestra un enfoque reflexivo para aprovechar la IA en un contexto de juego. Al restringir las respuestas de la IA a un simple sí/no, los desarrolladores se aseguran de que el jugador permanezca involucrado en el proceso de resolución de problemas, en lugar de confiar demasiado en la IA para proporcionar la solución. Se alienta al jugador a continuar con su propio proceso de pensamiento y exploración, con la IA sirviendo como una luz guía en lugar de un proveedor de soluciones completas.

Preguntas más frecuentes