El mundo de la IA esta semana: Anuncios revolucionarios de Google y OpenAI

Sumerge en los últimos avances de IA de Google y OpenAI. Descubre las capacidades avanzadas de GPT-4, los cambios de liderazgo en OpenAI y el aluvión de anuncios de IA de Google en I/O 2024. Mantente al tanto del rápidamente cambiante panorama de la IA.

17 de febrero de 2025

party-gif

Esta semana se vio un frenesí de importantes anuncios de IA de empresas tecnológicas líderes como Google y OpenAI. Desde el lanzamiento de GPT-4, un poderoso nuevo modelo de lenguaje, hasta avances emocionantes en áreas como la generación de videos y la realidad aumentada, este es un momento crucial en el rápidamente cambiante mundo de la inteligencia artificial. Sumerge para descubrir los últimos avances que están listos para dar forma al futuro.

GPT-40: El Asistente de IA Multimodal

El último modelo de Open AI, GPT-40, es un asistente de IA multimodal revolucionario que puede manejar una amplia gama de entradas y salidas. Algunos aspectos clave:

  • Capacidades multimodales: GPT-40 puede entender y generar contenido en varios formatos, incluyendo texto, audio, imágenes y video. Esto permite interacciones más naturales y contextuales.

  • Acceso gratuito para todos: Las características avanzadas de GPT-40, como la navegación por Internet, la interpretación de código y el análisis de datos, ahora están disponibles para todos los usuarios gratuitos de ChatGPT. Los miembros de ChatGPT Plus obtienen beneficios adicionales como tiempos de respuesta más rápidos y límites de salida más altos.

  • Habilidades conversacionales: GPT-40 puede participar en conversaciones similares a las humanas, con la capacidad de entender el tono, brindar apoyo emocional e incluso contar historias con una entrega expresiva.

  • Comprensión visual: El modelo puede interpretar información visual, como resolver problemas matemáticos analizando imágenes, y generar imágenes a partir de descripciones de texto.

  • Integración de escritorio: Open AI ha lanzado una aplicación de escritorio que permite a los usuarios acceder a GPT-40 directamente desde sus computadoras, con la posibilidad de compartir el contenido de la pantalla y obtener asistencia contextual.

Explorando las Capacidades de GPT-40

El nuevo modelo GPT-40 de Open AI es un modelo de lenguaje poderoso y versátil que va más allá de la simple generación de texto. Aquí se muestran algunas de las capacidades clave de GPT-40 que se presentaron:

Habilidades multimodales

GPT-40 es un modelo multimodal, lo que significa que puede manejar y entender diferentes tipos de medios como audio, video e imágenes, además del texto. Esto le permite realizar tareas que combinan múltiples modalidades, como describir el contenido de una imagen o un video.

Conversación avanzada

El modelo demostró impresionantes habilidades conversacionales, participando en diálogos de ida y vuelta e incluso adoptando diferentes tonos y personalidades emocionales. Fue capaz de entender el contexto y proporcionar respuestas relevantes y coherentes.

Resolución de problemas paso a paso

Cuando se le presentó un problema matemático, GPT-40 no solo proporcionó la respuesta final, sino que explicó el proceso paso a paso para resolver el problema, explicando su razonamiento a lo largo del camino.

Salida de voz personalizable

GPT-40 puede generar salida de voz con tono, emoción y expresividad personalizables. Esto le permite sonar más natural y humano al conversar.

Generación de imágenes

Además del texto, GPT-40 tiene la capacidad de generar imágenes. Los ejemplos mostrados incluían la creación de imágenes detalladas con texto legible, así como la generación de diseños de personajes consistentes en múltiples escenas.

Síntesis de objetos 3D

El modelo puede tomar imágenes 2D y generar reconstrucciones 3D, animarlas y colocar logotipos u otros elementos en objetos 3D.

Ilia Sutskever Dejando Open AI

Ilia Sutskever, uno de los fundadores originales de OpenAI, ha decidido alejarse de la empresa. Después de casi una década en OpenAI, Sutskever ha tomado la decisión de dejar la compañía.

Sutskever formó parte de la junta que tomó la decisión de despedir al CEO de OpenAI, Sam Altman, en noviembre de 2023. Sin embargo, Sutskever luego se arrepintió de esta decisión y se disculpó públicamente, afirmando que fue un error deshacerse de Altman.

Si bien las razones de Sutskever para irse no están del todo claras, parece que no estaba completamente alineado con la dirección que está tomando OpenAI. Como investigador y académico, Sutskever probablemente esté más interesado en la ciencia y la tecnología detrás de la IA, en lugar de la monetización y la comercialización de la tecnología.

En su mensaje de despedida, Sutskever expresó confianza en el liderazgo de OpenAI bajo Altman, Greg Brockman y Mira Murati, y afirmó que está emocionado por lo que vendrá a continuación en su propio proyecto personal, del cual compartirá detalles a su debido tiempo.

La partida de Sutskever es una pérdida significativa para OpenAI, ya que era uno de los miembros fundadores de la empresa y una luz guía en el campo de la IA. Sin embargo, la compañía parece estar avanzando con sus ambiciosos planes, incluido el lanzamiento reciente del poderoso modelo GPT-4.

Principales Salidas del Equipo de Super Alineación

Según informes, varios miembros clave del equipo de superalineación de OpenAI han renunciado a la empresa. Esto incluye a Yan Lecun, Leopold Ashenbrener y William Saunders.

Estas personas formaban parte del equipo responsable de garantizar que los sistemas de IA desarrollados por OpenAI, como GPT-4, permanezcan seguros y beneficiosos. Su partida es preocupante, ya que sugiere posibles problemas o desacuerdos dentro de la empresa en torno a la dirección y la seguridad de sus modelos de IA avanzados.

El equipo de superalineación desempeña un papel fundamental en el intento de mitigar los riesgos de los sistemas de IA poderosos. Su salida podría indicar tensiones internas o un cambio de prioridades en OpenAI que prioriza el desarrollo rápido sobre las medidas de seguridad sólidas.

Esta noticia llega poco después de la partida de Ilya Sutskever, uno de los cofundadores de OpenAI, quien anunció que se iba de la empresa para perseguir un nuevo proyecto "personalmente significativo".

La pérdida de estas figuras clave, especialmente las centradas en la seguridad de la IA, es un desarrollo preocupante que merece una estrecha vigilancia. Plantea preguntas sobre la dirección y las prioridades futuras de OpenAI a medida que continúan empujando los límites de los modelos de lenguaje a gran escala y otras capacidades avanzadas de IA.

Google IO 2024: Modelos Gemini, Proyecto Astra y Más

El mayor anuncio de Google IO 2024 fue la introducción de los modelos de IA Gemini. Gemini 1.5 Flash y Gemini 1.5 Pro son los nuevos modelos de lenguaje a gran escala de Google.

Gemini 1.5 Flash es un modelo más rápido, mientras que Gemini 1.5 Pro está diseñado para la mejor salida posible. Ambos modelos tienen una ventana de contexto de 1 millón de tokens, con planes de aumentarla a 2 millones de tokens en el futuro. Esto permite una entrada y salida de aproximadamente 1.5 millones de palabras.

Otro aspecto destacado fue Proyecto Astra, que permite que un teléfono móvil vea lo que la cámara está mirando y responda preguntas sobre ello. La demostración mostró que el teléfono recordaba detalles como la ubicación de un par de gafas, y el presentador pudo continuar interactuando con el sistema usando un par de gafas de realidad aumentada, lo que sugiere futuras capacidades similares a Google Glass.

Google también presentó su nuevo modelo de texto a imagen, Imagine 3, que se acerca al realismo de modelos como Midjourney. Demostraron un nuevo modelo de generación de video llamado Veo, que puede crear videos de 1080p de más de 1 minuto de duración, aunque no iguala la calidad de Sorai de Anthropic.

Otros anuncios incluyeron mejoras en Google Search, Gmail y otras herramientas de Google Suite, agregando funciones impulsadas por IA como razonamiento de varios pasos, organización automática de correos electrónicos y comprensión del contexto de las fotos.

Otras Actualizaciones de IA: Anthropic, Hume y el Futuro de las Citas

Comenzando con Anthropic, la empresa ha contratado a Mike Krieger, cofundador de Instagram, como su nuevo jefe de producto. Krieger, quien fue uno de los cofundadores de Instagram y también cofundador de la aplicación de noticias Artifact, tendrá la tarea de diseñar buenas experiencias de usuario para entusiasmar a más personas con las herramientas de Anthropic, como Claude.

Antropic también ha lanzado una nueva función de generador de indicaciones en su consola. Los usuarios ahora pueden generar indicaciones listas para producción describiendo lo que quieren lograr, y el sistema utilizará técnicas de ingeniería de indicaciones, como el razonamiento en cadena de pensamiento, para crear indicaciones más efectivas, precisas y confiables.

Pasando a otro tema, la empresa de IA Hume ha lanzado una nueva herramienta llamada Chatter, una experiencia de podcast interactiva. Chatter es un podcast que le permite dirigir la conversación, haciendo preguntas al presentador de IA y obteniendo respuestas adaptadas a sus intereses, en este caso centradas en las últimas noticias sobre IA.

Finalmente, un clip de la fundadora de Bumble, Whitney Wolfe Herd, se volvió viral la semana pasada, donde especuló sobre el futuro de las citas con asistentes de citas de IA. La idea es que tu asistente de IA personal tendría citas con los asistentes de IA de otras personas para determinar la compatibilidad, antes de presentar a las personas reales. Si bien esto suena como una trama de Black Mirror, resalta cómo la IA podría desempeñar un papel en las experiencias de citas futuras.

Conclusión

La semana pasada fue un torbellino de noticias sobre IA, con importantes anuncios tanto de Google como de OpenAI.

OpenAI presentó su último modelo de lenguaje, GPT-4, que es un poderoso sistema multimodal capaz de manejar una variedad de entradas como audio, imágenes y video. El aspecto más impresionante es que GPT-4 ahora estará disponible para todos los usuarios gratuitos de ChatGPT, dándoles acceso a características avanzadas que anteriormente estaban reservadas solo para los suscriptores de pago.

Por otro lado, Google adoptó un enfoque diferente en su evento I/O: bombardeó a la audiencia con más de 100 anuncios relacionados con la IA. Los aspectos más destacados incluyen los nuevos modelos de lenguaje Gemini, el impresionante Proyecto Astra que puede entender visualmente una escena, y los avances en la generación de texto a imagen y video.

Mientras que Google pudo haber abrumado con el volumen de actualizaciones, ambas empresas demostraron un progreso significativo en hacer que la IA sea más accesible y capaz. La carrera por la supremacía de la IA se está intensificando, y será emocionante ver cómo evolucionan estas tecnologías e impactan nuestra vida diaria en los próximos años.

A medida que continúa la temporada de eventos de IA, con próximas presentaciones de Microsoft, Cisco, Qualcomm y Apple, no habrá escasez de desarrollos innovadores de IA para anticipar. Este es un momento emocionante para la industria de la IA, y estoy ansioso por seguir compartiendo las últimas noticias e ideas con ustedes.

Preguntas más frecuentes