Apple se une a la junta directiva de OpenAI, hackeo de OpenAI, jailbreaks y más noticias de IA

Descubre las últimas noticias y desarrollos de IA, incluyendo el asiento de Apple en la junta directiva de OpenAI, los avances en IA en dispositivos, una nueva herramienta de aislamiento de voz y las preocupaciones de seguridad en torno al hackeo interno de OpenAI. Explora el panorama cambiante de la computación de IA y su impacto en el futuro de los medios y la tecnología.

16 de febrero de 2025

party-gif

Este artículo de blog ofrece una descripción general completa de los últimos desarrollos en la industria de la IA, cubriendo una variedad de temas desde la participación de Apple con OpenAI hasta el lanzamiento de nuevos modelos y herramientas de IA. Los lectores obtendrán información sobre el panorama evolutivo de la tecnología de IA, incluidos los avances en el procesamiento de IA en el dispositivo, las capacidades de voz y la generación de activos 3D. Además, el artículo aborda importantes preocupaciones y brechas de seguridad dentro de la comunidad de IA, proporcionando una perspectiva integral sobre el estado actual del campo.

Apple se une a la junta directiva de OpenAI: un movimiento sorprendente

Se ha informado que Apple está obteniendo un asiento de observador en la junta directiva de OpenAI. Este es un movimiento sorprendente, ya que Microsoft tuvo que comprar la mitad de OpenAI para obtener un asiento en la junta, mientras que Apple no está pagando nada a OpenAI pero aún así está obteniendo un asiento en la junta. El asiento ha sido elegido para Phil Schiller, el ex director de marketing de Apple.

Esta noticia es interesante porque después de los anuncios de IA de Apple, quedó claro que estaban manteniendo a OpenAI a distancia en términos de su asociación. Todos pensaron que ChatGPT se integraría profundamente en el ecosistema de Apple, pero resulta que Apple ha desarrollado mucha de su propia inteligencia artificial interna para ejecutarla en sus dispositivos y en su nube privada. Cualquier tarea que requiera conocimiento del mundo se descarga y se envía a la API de OpenAI, pero solo después de confirmar la intención del usuario cada vez.

Salesforce presenta Einstein Tiny Giant: el auge de la IA en dispositivos

Mark Benioff, el CEO de Salesforce, ha anunciado el lanzamiento de Salesforce Einstein Tiny Giant, un modelo de 1 mil millones de parámetros que supera a modelos siete veces más grandes, incluidos GPT-3.5 y Claude, en el rendimiento en dispositivos. Este desarrollo es un paso significativo hacia el futuro del procesamiento de IA, donde los modelos más pequeños y eficientes desempeñarán un papel crucial.

Los aspectos clave de Salesforce Einstein Tiny Giant son:

  • Es un modelo de 1 mil millones de parámetros, lo que lo convierte en un modelo "micro" en el mundo de los modelos de lenguaje grandes.
  • A pesar de su menor tamaño, supera a modelos más grandes como GPT-3.5 y Claude en el rendimiento en dispositivos.
  • Este modelo representa el auge del procesamiento de IA en dispositivos, donde los cálculos se realizan localmente en el dispositivo del usuario, en lugar de depender de la infraestructura basada en la nube.
  • El procesamiento de IA en dispositivos ofrece varias ventajas, incluida una mejor privacidad, seguridad, baja latencia y eficiencia en costos.
  • La visión de Benioff para el futuro de la pila de IA implica una combinación de modelos más pequeños y específicos para cada tarea, orquestados por un modelo generalista, lo que proporciona la máxima eficiencia y rendimiento.

Moshi de Open Science: superando a OpenAI en capacidades de voz

Una empresa llamada Open Science parece haber superado a OpenAI en las capacidades de voz completas. Han lanzado Moshi, un modelo de fundación multimodal nativo en tiempo real que puede escuchar y hablar, similar a lo que OpenAI demostró con GPT-4 en mayo. Sin embargo, la funcionalidad de voz de GPT-4 se ha retrasado, y no está claro cuándo se lanzará.

Moshi tiene varias características impresionantes:

  • Expresa y entiende emociones
  • Habla con un acento similar al francés
  • Escucha y genera discurso de audio
  • Piensa mientras habla
  • Admite dos flujos de audio para escuchar y hablar al mismo tiempo
  • Entrenamiento previo conjunto en datos sintéticos, ajustado en 100,000 conversaciones sintéticas de estilo oral convertidas con TTS
  • Aprendió su voz a partir de datos sintéticos generados por un modelo TTS separado
  • Latencia de extremo a extremo de 200 milisegundos
  • Variante más pequeña que se ejecuta en una MacBook o una GPU de consumo
  • Utiliza marcas de agua para detectar audio generado por IA
  • Será de código abierto en breve, incluida la demostración, el código, el modelo y el documento

El futuro de la computación: un cambio de paradigma

Según Andrew Karpathy, una voz líder en inteligencia artificial y cofundador de OpenAI, la naturaleza de la computación está experimentando un cambio fundamental. Estamos entrando en un nuevo paradigma de computación, similar a la década de 1980 de la computación.

En lugar de una unidad central de procesamiento que trabaja en instrucciones sobre bytes, ahora tenemos modelos de lenguaje grandes que actúan como la unidad central de procesamiento, trabajando en tokens (pequeños fragmentos de cadenas) en lugar de bytes. Además, tenemos una ventana de contexto de tokens en lugar de una RAM de bytes, y equivalentes de otros componentes informáticos.

Karpathy se refiere a esta nueva "computadora" como el modelo de lenguaje grande (LLM), y lo ve como un nuevo sistema que todos estamos aprendiendo a programar. Comprender sus fortalezas, limitaciones y cómo incorporarlo de manera efectiva en los productos será crucial en los próximos años.

Este cambio en el paradigma de computación sugiere que los sistemas operativos y aplicaciones tradicionales ya no serán necesarios. El futuro puede implicar hablar directamente con un modelo de lenguaje grande, que luego puede realizar los cálculos deseados en cualquier dispositivo final, sin la necesidad de un desarrollo de software tradicional.

Herramientas de audio innovadoras de 11 Labs: aislamiento de voz y voces famosas

11 Labs, la empresa de voz IA, ha lanzado dos nuevos y emocionantes productos:

  1. Voice Isolator: Esta herramienta puede grabar el habla y extraer una voz cristalina de cualquier muestra de audio, incluso con un ruido de fondo significativo. La demostración muestra su capacidad para eliminar el ruido de fondo y proporcionar audio de alta calidad, lo que puede ser increíblemente útil para grabar entrevistas o videollamadas en entornos ruidosos.

  2. Famous Voices: 11 Labs está trayendo voces famosas a su aplicación iOS, permitiendo a los usuarios hacer que íconos de Hollywood históricos como James Dean, Judy Garland, Bert Reynolds y Sir Lawrence Olivier digan lo que quieran. Esta función demuestra el futuro de los medios, donde los propietarios de derechos de propiedad intelectual pueden vender los derechos para reproducir la voz y la imagen de una persona a empresas de IA.

Perplexity Pro Search: avanzando en el razonamiento de varios pasos y las capacidades de codificación

Perplexity ha anunciado una versión actualizada de Perplexity Pro Search que puede realizar investigaciones más profundas sobre consultas más complejas con razonamiento de varios pasos, así como capacidades avanzadas de matemáticas y programación.

Las principales características de la versión actualizada de Perplexity Pro Search incluyen:

  1. Razonamiento de varios pasos: El sistema ahora aborda problemas intrincados con un razonamiento de más pasos. Entiende cuándo una pregunta requiere planificación, trabaja a través de objetivos paso a paso y sintetiza respuestas en profundidad con mayor eficiencia.

  2. Wolfram Alpha y ejecución de código: Perplexity Pro Search ha agregado capacidades avanzadas de matemáticas y programación, lo que le permite resolver problemas complejos que requieren ejecución de código, como el problema del "dial nocturno" para 100 saltos.

  3. Manejo de consultas mejorado: El sistema actualizado puede manejar consultas más complejas, dividiéndolas en múltiples pasos para proporcionar respuestas integrales y bien fundamentadas.

Meta 3D Gen: transformando la creación de activos 3D

Meta, el gigante tecnológico, ha presentado un nuevo sistema revolucionario llamado Meta 3D Gen. Esta innovadora herramienta impulsada por IA está diseñada para revolucionar la forma en que se crean los activos 3D, ofreciendo una solución integral y eficiente de principio a fin.

Meta 3D Gen es un sistema de IA combinado que puede generar activos 3D de alta calidad, incluidas texturas y mapas de materiales detallados, todo a partir de simples indicaciones de texto. Esta notable capacidad permite a los creadores producir contenido 3D impresionante en una fracción del tiempo que normalmente tomaría utilizando métodos tradicionales.

El rendimiento del sistema es verdaderamente impresionante, con la capacidad de generar resultados superiores a las soluciones existentes, mientras opera de 3 a 10 veces más rápido. Esta mejora significativa en eficiencia y calidad es un cambio de juego para la industria de creación de activos 3D.

GPT-4All 3.0: la aplicación de escritorio de LLM local de código abierto

El proyecto original que permitía ejecutar modelos localmente se llama GPT-4All, y ahora han lanzado GPT-4All 3.0. El año pasado, se filtró el modelo original LLaMA de Meta AI, y los increíbles miembros de Nomic AI, los creadores de GPT-4All, pudieron construir una aplicación donde puedes ejecutar LLaMA localmente.

GPT-4All 3.0 es la última versión de esta aplicación de escritorio de LLM de código abierto y local. Ahora admite miles de modelos y todos los sistemas operativos principales, con importantes mejoras en la interfaz de usuario y la experiencia de usuario. Lo he revisado y usado, y es realmente agradable, limpio y hecho para personas que no quieren pensar en las complejidades de ejecutar modelos localmente. Esta es una excelente manera de ejecutar modelos sin preocuparse por los detalles técnicos.

Iniciativa de evaluación de modelos de Anthropic: garantizando la seguridad y la coherencia

Anthropic, la empresa detrás del modelo de lenguaje altamente capaz Claude 3.5, ha anunciado una nueva iniciativa para abordar los desafíos en el desarrollo de evaluaciones de alta calidad y relevantes para la seguridad de los modelos de IA avanzados. La demanda de estas evaluaciones supera la oferta, y Anthropic está tomando medidas para abordar este problema.

Los puntos clave de esta iniciativa son:

  1. Desarrollar evaluaciones efectivas: Anthropic reconoce que desarrollar evaluaciones sólidas y exhaustivas para modelos de IA sigue siendo una tarea desafiante. El objetivo es financiar a organizaciones de terceros para crear evaluaciones que puedan medir de manera efectiva las capacidades avanzadas y la seguridad de los modelos de IA.

  2. Abordar las limitaciones de los puntos de referencia estáticos: Uno de los problemas con los marcos de evaluación existentes es que pueden ser estáticos, lo que permite a los desarrolladores de modelos simplemente entrenar sus modelos en las preguntas específicas utilizadas en los puntos de referencia. Esto puede llevar a un sobreajuste y a una falsa sensación de las verdaderas capacidades del modelo. Anthropic tiene como objetivo apoyar la creación de conjuntos de preguntas dinámicos y diversos que pongan a prueba un amplio espectro de capacidades, incluida la seguridad.

Skeleton Key AI Jailbreak: eludiendo los protocolos de seguridad

Los investigadores de Microsoft han descubierto una nueva técnica de evasión de seguridad de IA llamada "Skeleton Key" que puede eludir los controles de seguridad en múltiples modelos de IA generativa. Esto permite potencialmente a los atacantes extraer información dañina o restringida de estos sistemas.

La técnica Skeleton Key emplea una estrategia de múltiples turnos para manipular a los modelos de IA para que ignoren sus protocolos de seguridad integrados. Funciona instruyendo al modelo para que aumente sus pautas de comportamiento en lugar de cambiarlas directamente, convenciéndolo de que responda a cualquier solicitud mientras proporciona una advertencia sobre contenido potencialmente ofensivo, dañino o ilegal.

Este enfoque de "seguimiento explícito de instrucciones de fuerza" reduce efectivamente la brecha entre lo que el modelo es capaz de hacer y lo que está dispuesto a hacer. Una vez que se logra el éxito, el escape de la cárcel le da al atacante control total sobre la salida del IA, ya que el modelo no puede distinguir entre preguntas maliciosas y legítimas.

Los problemas de seguridad de OpenAI: sistema de mensajería hackeado y registros de chat sin cifrar

La semana pasada, un ingeniero y desarrollador de software descubrió que la aplicación de chat GPT para Mac almacenaba las conversaciones de los usuarios de forma local en texto sin cifrar, lo que significa que cualquiera con acceso a la computadora del usuario podría acceder a todas sus consultas a chat GPT. La aplicación solo está disponible en el sitio web de OpenAI y no tiene que seguir los requisitos de aislamiento de Apple, lo que es un argumento de seguridad para el ecosistema cerrado de Apple.

Después de que The Verge cubriera este problema, OpenAI lanzó una actualización que agregó cifrado a las conversaciones almacenadas localmente. Esta fue una vulnerabilidad de seguridad significativa que afortunadamente se abordó.

El segundo y mucho más grande problema de seguridad ocurrió en 2023. Un pirata informático logró obtener información sobre OpenAI después de acceder ilegalmente al sistema de mensajería interna de la empresa. The New York Times informó que Leopold Ashenbrener, el gerente de programa técnico de OpenAI, quien era uno de los responsables de la "superalineación" en OpenAI, planteó preocupaciones de seguridad ante la junta directiva de la empresa. Argumentó que el hackeo implicaba vulnerabilidades internas que los adversarios extranjeros podrían aprovechar. Ashenbrener fue despedido por divulgar esta información.

Conclusión

El futuro de la computación y la IA está evolucionando rápidamente, con avances y desarrollos significativos en varios frentes. Las noticias destacan varias tendencias clave:

  1. Participación de Apple en OpenAI: La decisión de Apple de obtener un asiento de observador en la junta directiva de OpenAI es un movimiento estratégico, que indica el interés de la empresa en el panorama de la IA y su potencial integración con el ecosistema de Apple.

  2. Einstein Tiny Giant de Salesforce: El lanzamiento de este modelo de IA de alto rendimiento y en dispositivos destaca la creciente importancia de la computación periférica y el cambio hacia modelos de IA más pequeños y eficientes.

  3. Moshi de Open Science: El desarrollo de este modelo de fundación multimodal en tiempo real que puede escuchar y hablar resalta el progreso en las capacidades de IA habilitadas por voz, desafiando la funcionalidad de voz retrasada de GPT-4 de OpenAI.

  4. El cambio de paradigma computacional: Expertos como Andrew Karpathy discuten el surgimiento de un nuevo paradigma de computación, donde los modelos de lenguaje grandes actúan como la unidad central de procesamiento, y la estructura tradicional del sistema operativo y las aplicaciones puede quedar obsoleta.

  5. Los avances de 11 Labs: La tecnología de aislamiento de voz de la empresa y la capacidad de recrear voces famosas demuestran el impacto potencial de la IA en la creación de medios y contenido.

Los investigadores de Microsoft han descubierto una nueva técnica de evasión de seguridad de IA llamada "Skeleton Key" que puede eludir los controles de seguridad en múltiples modelos de IA generativa. Esto permite potencialmente a los atacantes extraer información dañina o restringida de estos sistemas.

La técnica Skeleton Key emplea una estrategia de múltiples turnos para manipular a los modelos de IA para que ignoren sus protocolos de seguridad integrados. Funciona instruyendo al modelo para que aumente sus pautas de comportamiento en lugar de cambiarlas directamente, convenciéndolo de que responda a cualquier solicitud mientras proporciona una advertencia

Preguntas más frecuentes