A Apple se junta ao Conselho da OpenAI, Hack da OpenAI, Jailbreaks e Mais Notícias de IA

Descubra as últimas notícias e desenvolvimentos da IA, incluindo a participação da Apple no conselho da OpenAI, avanços na IA em dispositivos, uma nova ferramenta de isolamento de voz e preocupações de segurança em torno da hackagem interna da OpenAI. Explore a paisagem em evolução da computação de IA e seu impacto no futuro da mídia e da tecnologia.

24 de fevereiro de 2025

party-gif

Este post de blog oferece uma visão geral abrangente dos últimos desenvolvimentos na indústria de IA, cobrindo uma série de tópicos, desde o envolvimento da Apple com a OpenAI até o lançamento de novos modelos e ferramentas de IA. Os leitores obterão insights sobre o cenário em evolução da tecnologia de IA, incluindo avanços no processamento de IA em dispositivos, recursos de voz e geração de ativos 3D. Além disso, o post aborda importantes preocupações e violações de segurança dentro da comunidade de IA, fornecendo uma perspectiva abrangente sobre o estado atual do campo.

Apple se junta ao conselho da OpenAI: Um movimento surpreendente

Foi relatado que a Apple está recebendo um assento de observador no conselho de administração da OpenAI. Este é um movimento surpreendente, pois a Microsoft teve que comprar metade da OpenAI para obter um assento no conselho, enquanto a Apple não está pagando nada à OpenAI, mas ainda assim está recebendo um assento no conselho. O assento foi escolhido para Phil Schiller, ex-chefe de marketing da Apple.

Esta notícia é interessante porque, após os anúncios de IA da Apple, ficou claro que eles estavam mantendo a OpenAI a uma certa distância em termos de sua parceria. Todos pensavam que o ChatGPT seria profundamente integrado ao ecossistema da Apple, mas acontece que a Apple desenvolveu muita de sua própria inteligência artificial internamente para funcionar em seus dispositivos e em sua nuvem privada. Qualquer tarefa que exija conhecimento do mundo é descarregada e enviada para a API da OpenAI, mas apenas após confirmar a intenção do usuário a cada vez.

Salesforce revela o Einstein Tiny Giant: A ascensão da IA no dispositivo

Mark Benioff, CEO da Salesforce, anunciou o lançamento do Salesforce Einstein Tiny Giant, um modelo de 1 bilhão de parâmetros que supera modelos sete vezes maiores, incluindo o GPT-3.5 e o Claude, no desempenho em dispositivos. Este desenvolvimento é um passo significativo em direção ao futuro do processamento de IA, onde modelos menores e mais eficientes desempenharão um papel crucial.

Os principais destaques do Salesforce Einstein Tiny Giant são:

  • É um modelo de 1 bilhão de parâmetros, tornando-o um modelo "micro" no mundo dos modelos de linguagem de grande porte.
  • Apesar de seu tamanho menor, ele supera modelos maiores como o GPT-3.5 e o Claude no desempenho em dispositivos.
  • Este modelo representa o surgimento do processamento de IA em dispositivos, onde os cálculos são realizados localmente no dispositivo do usuário, em vez de depender de infraestrutura baseada em nuvem.
  • O processamento de IA em dispositivos oferece várias vantagens, incluindo melhor privacidade, segurança, baixa latência e eficiência de custos.
  • A visão de Benioff para o futuro da pilha de IA envolve uma combinação de modelos menores e específicos para tarefas, orquestrados por um modelo generalista, proporcionando máxima eficiência e desempenho.
  • A disponibilidade de modelos micro de código aberto, como o Salesforce Einstein Tiny Giant, é um passo significativo para a realização dessa visão da pilha de IA do futuro.

Moshi da Open Science: Superando a OpenAI em capacidades de voz

Uma empresa chamada Open Science parece ter superado a OpenAI no quesito de capacidades de voz completas. Eles lançaram o Moshi, um modelo de fundação multimodal nativo em tempo real que pode ouvir e falar, semelhante ao que a OpenAI demonstrou com o GPT-4 em maio. No entanto, a funcionalidade de voz do GPT-4 está atrasada, e não está claro quando será lançada.

O Moshi possui várias características impressionantes:

  • Expressa e compreende emoções
  • Fala com um sotaque semelhante ao francês
  • Ouve e gera discurso de áudio
  • Pensa enquanto fala
  • Suporta dois fluxos de áudio para ouvir e falar ao mesmo tempo
  • Pré-treinamento conjunto em dados sintéticos, refinado em 100.000 conversas sintéticas em estilo oral convertidas com TTS
  • Aprendeu sua voz a partir de dados sintéticos gerados por um modelo TTS separado
  • Latência fim a fim de 200 milissegundos
  • Variante menor que funciona em um MacBook ou GPU de consumidor
  • Usa marcação d'água para detectar áudio gerado por IA
  • Será totalmente de código aberto em breve, incluindo a demonstração, o código, o modelo e o artigo

Embora o autor tenha experimentado a demonstração e a tenha achado inconsistente, ele está animado para testá-la novamente assim que a versão de código aberto estiver disponível. A capacidade de ter um modelo de fundação multimodal em tempo real que possa ouvir e falar é um avanço significativo, e será interessante ver como o Moshi se sairá em comparação com as futuras capacidades de voz da OpenAI.

O futuro da computação: Uma mudança de paradigma

De acordo com Andrew Karpathy, uma voz líder em inteligência artificial e cofundador da OpenAI, a natureza da computação está passando por uma mudança fundamental. Estamos entrando em um novo paradigma de computação, semelhante aos anos 1980 da computação.

Em vez de uma unidade central de processamento trabalhando em instruções sobre bytes, agora temos modelos de linguagem de grande porte que atuam como a unidade central de processamento, trabalhando em tokens (pequenos pedaços de string) em vez de bytes. Além disso, temos uma janela de contexto de tokens em vez de uma RAM de bytes, e equivalentes de outros componentes de computação.

Karpathy se refere a este novo "computador" como o modelo de linguagem de grande porte (LLM), e ele vê isso como um novo sistema que todos estamos aprendendo a programar. Entender seus pontos fortes, limitações e como incorporá-lo efetivamente em produtos é crucial nos próximos anos.

Essa mudança no paradigma de computação sugere que os sistemas operacionais e aplicativos tradicionais podem não ser mais necessários. O futuro pode envolver falar diretamente com um modelo de linguagem de grande porte, que pode então realizar os cálculos desejados em qualquer dispositivo final, sem a necessidade de desenvolvimento de software tradicional.

Ferramentas de áudio inovadoras da 11 Labs: Isolamento de voz e vozes famosas

A 11 Labs, a empresa de voz IA, lançou dois novos produtos emocionantes:

  1. Voice Isolator: Esta ferramenta pode gravar fala e extrair voz cristalina de qualquer amostra de áudio, mesmo com ruído de fundo significativo. A demonstração mostra sua capacidade de remover o ruído de fundo e fornecer áudio de alta qualidade, o que pode ser incrivelmente útil para gravar entrevistas ou chamadas de vídeo em ambientes ruidosos.

  2. Famous Voices: A 11 Labs está trazendo vozes famosas para seu aplicativo iOS, permitindo que os usuários tenham ícones de Hollywood históricos como James Dean, Judy Garland, Bert Reynolds e Sir Lawrence Olivier dizendo o que quiserem. Este recurso demonstra o futuro da mídia, onde os proprietários de propriedade intelectual podem vender os direitos de reproduzir a voz e a imagem de uma pessoa para empresas de IA.

Perplexity Pro Search: Avançando em raciocínio multi-etapa e capacidades de codificação

A Perplexity anunciou uma versão atualizada do Perplexity Pro Search que pode realizar pesquisas mais aprofundadas em consultas mais complexas com raciocínio de várias etapas, bem como recursos avançados de matemática e programação.

Os principais recursos da versão atualizada do Perplexity Pro Search incluem:

  1. Raciocínio de Várias Etapas: O sistema agora aborda problemas intrincados com mais raciocínio de várias etapas. Ele entende quando uma pergunta requer planejamento, trabalha através de metas passo a passo e sintetiza respostas aprofundadas com maior eficiência.

  2. Wolfram Alpha e Execução de Código: O Perplexity Pro Search adicionou recursos avançados de matemática e programação, permitindo que ele resolva problemas complexos que exigem execução de código, como o problema do "dial noturno" para 100 saltos.

  3. Melhoria no Tratamento de Consultas: O sistema atualizado pode lidar com consultas mais complexas, dividindo-as em várias etapas para fornecer respostas abrangentes e bem fundamentadas.

Meta 3D Gen: Transformando a criação de ativos 3D

A Meta, a gigante da tecnologia, apresentou um novo sistema revolucionário chamado Meta 3D Gen. Esta ferramenta inovadora alimentada por IA foi projetada para revolucionar a forma como os ativos 3D são criados, oferecendo uma solução integrada e eficiente do início ao fim.

O Meta 3D Gen é um sistema de IA combinado que pode gerar ativos 3D de alta qualidade, incluindo texturas e mapas de materiais detalhados, tudo a partir de simples prompts de texto. Essa notável capacidade permite que os criadores produzam conteúdo 3D deslumbrante em uma fração do tempo que normalmente levaria usando métodos tradicionais.

O desempenho do sistema é realmente impressionante, com a capacidade de gerar resultados superiores às soluções existentes, operando de 3 a 10 vezes mais rápido. Essa melhoria significativa na eficiência e qualidade é um divisor de águas para a indústria de criação de ativos 3D.

Ao aproveitar o poder da IA, o Meta 3D Gen capacita os criadores a se concentrarem em sua visão criativa, em vez de serem sobrecarregados com as complexidades técnicas da modelagem 3D e da texturização. Essa mudança no fluxo de trabalho criativo tem o potencial de desbloquear novas possibilidades e inspirar uma nova era de criação de conteúdo 3D.

GPT-4All 3.0: O aplicativo de desktop de LLM local de código aberto

O projeto original que permitia executar modelos localmente é chamado GPT-4All, e agora eles lançaram o GPT-4All 3.0. No ano passado, o modelo original LLaMA da Meta AI foi vazado, e os incríveis profissionais da Nomic AI, os criadores do GPT-4All, conseguiram construir um aplicativo onde você pode realmente executar o LLaMA localmente.

O GPT-4All 3.0 é a versão mais recente deste aplicativo de desktop de LLM de código aberto. Agora ele suporta milhares de modelos e todos os principais sistemas operacionais, com grandes melhorias na interface do usuário e na experiência do usuário. Eu dei uma olhada e usei, e é realmente bom, limpo e feito para pessoas que não querem pensar nas complexidades de executar modelos localmente. Esta é uma ótima maneira de executar modelos sem se preocupar com os detalhes técnicos.

Iniciativa de Avaliação de Modelos da Anthropic: Garantindo segurança e consistência

A Anthropic, a empresa por trás do modelo de linguagem altamente capaz Claude 3.5, anunciou uma nova iniciativa para abordar os desafios no desenvolvimento de avaliações de alta qualidade e relevantes para a segurança de modelos de IA avançados. A demanda por essas avaliações está superando a oferta, e a Anthropic está tomando medidas para resolver esse problema.

Os principais pontos desta iniciativa são:

  1. Desenvolver Avaliações Eficazes: A Anthropic reconhece que desenvolver avaliações robustas e abrangentes para modelos de IA continua sendo uma tarefa desafiadora. O objetivo é financiar organizações de terceiros para criar avaliações que possam medir efetivamente as capacidades avançadas e a segurança dos modelos de IA.

  2. Abordar as Limitações de Benchmarks Estáticos: Um dos problemas com os frameworks de avaliação existentes é que eles podem ser estáticos, permitindo que os desenvolvedores de modelos simplesmente treinem seus modelos nas perguntas específicas usadas nos benchmarks. Isso pode levar a overfitting e a uma falsa sensação das verdadeiras capacidades do modelo. A Anthropic visa apoiar a criação de conjuntos de perguntas dinâmicos e diversos que testem uma ampla gama de capacidades, incluindo segurança.

  3. Financiar Avaliações de Terceiros: Para abordar o gap entre oferta e demanda, a Anthropic está introduzindo uma nova iniciativa para financiar organizações de terceiros que possam desenvolver essas avaliações de alta qualidade e relevantes para a segurança. Isso ajudará a garantir que as avaliações sejam independentes e imparciais, fornecendo uma avaliação mais precisa do desempenho dos modelos.

Skeleton Key AI Jailbreak: Contornando os protocolos de segurança

Os pesquisadores da Microsoft descobriram uma nova técnica de fuga de prisão de IA chamada "Skeleton Key" que pode contornar os mecanismos de segurança em vários modelos de IA generativa. Isso potencialmente permite que os atacantes extraiam informações prejudiciais ou restritas desses sistemas.

A técnica Skeleton Key emprega uma estratégia de várias etapas para manipular os modelos de IA a ignorarem seus protocolos de segurança incorporados. Ela funciona instruindo o modelo a aumentar suas diretrizes de comportamento em vez de mudá-las diretamente, convencendo-o a responder a qualquer solicitação, fornecendo um aviso para conteúdo potencialmente ofensivo, prejudicial ou ilegal.

Essa abordagem de "seguir instruções de força explícita" efetivamente estreita a lacuna entre o que o modelo é capaz de fazer e o que ele está disposto a fazer. Uma vez bem-sucedido, o furo na prisão dá ao atacante controle total sobre a saída do IA, pois o modelo se torna incapaz de distinguir entre perguntas maliciosas e legítimas.

Problemas de segurança da OpenAI: Sistema de mensagens hackeado e logs de bate-papo não criptografados

No início desta semana, um engenheiro e desenvolvedor de software descobriu que o aplicativo de chat GPT para Mac estava armazenando conversas de usuários localmente em texto simples, em vez de criptografá-las. Isso significava que qualquer pessoa com acesso ao computador do usuário poderia acessar todas as suas consultas ao chat GPT. O aplicativo está disponível apenas no site da OpenAI e não precisa seguir os requisitos de sandbox da Apple, o que é um argumento de segurança para o ecossistema fechado da Apple.

Depois que o The Verge cobriu esse problema, a OpenAI lançou uma atualização que adicionou criptografia aos chats armazenados localmente. Esta foi uma vulnerabilidade de segurança significativa que felizmente foi abordada.

O segundo, e muito maior, problema de segurança ocorreu em 2023. Um hacker conseguiu obter informações sobre a OpenAI após acessar ilegalmente o sistema de mensagens interno da empresa. O New York Times informou que o gerente de programa técnico da OpenAI, Leopold Ashenbrener, que era um dos chefes do "super alinhamento" na OpenAI, levantou preocupações de segurança com o conselho de administração da empresa. Ele argumentou que o ataque implica vulnerabilidades internas que adversários estrangeiros poderiam aproveitar. Ashenbrener foi demitido por divulgar essa informação.

Conclusão

O futuro da computação e da IA está evoluindo rapidamente, com avanços e desenvolvimentos significativos em várias frentes. As notícias destacam várias tendências-chave:

  1. Envolvimento da Apple na OpenAI: A decisão da Apple de obter um assento de observador no conselho da OpenAI é um movimento estratégico, indicando o interesse da empresa na paisagem da IA e sua potencial integração ao ecossistema da Apple.

  2. Einstein Tiny Giant da Salesforce: O lançamento deste modelo de IA de alto desempenho em dispositivos destaca a crescente importância da computação edge e a mudança para modelos de IA menores e mais efic

Perguntas frequentes