Desbloqueie o Co-Piloto de Conversação em Tempo Real de IA para o Seu Telefone

Desbloqueie o co-piloto de conversação de IA em tempo real para o seu telefone. Construa uma ferramenta poderosa que transcreve e analisa conversas em tempo real, fornecendo sugestões e feedback instantâneos para melhorar a comunicação. Melhore suas entrevistas, reuniões e interações sociais com este assistente alimentado por IA.

14 de fevereiro de 2025

Este post de blog explora o potencial de um co-piloto de conversa de IA em tempo real que pode auxiliar em tarefas como entrevistas de emprego e pesquisa de usuários. O autor apresenta o desenvolvimento de um aplicativo web e móvel que aproveita modelos avançados de fala para texto e linguagem para fornecer capacidades instantâneas de transcrição e sugestão, destacando os benefícios de uma ferramenta como essa para melhorar a comunicação e a produtividade.

Introdução ao Co-piloto de Conversação de IA em Tempo Real
Desafios na Construção de Transcrição em Tempo Real e Inferência Rápida
Construindo uma Demo de Co-piloto de Conversação Baseada na Web
Aproveitando o Whisper Kit para um Co-piloto de Conversação Móvel
Conclusão

Introdução ao Co-piloto de Conversação de IA em Tempo Real

Há quase um ano, por volta de março de 2023, quando o ChatGPT acabou de ser lançado e se tornou o assunto mais quente do mundo, lembro-me claramente de ver uma demonstração do Arony em que ele construiu um "Interview Breaker" - uma ferramenta do ChatGPT que ajuda a passar em entrevistas de emprego. Esta semana, construí algo chamado "Interview Breaker" - um protótipo feito com o ChatGPT para passar em entrevistas de emprego. Ele usa sua experiência anterior, ouve sua conversa com o entrevistador e lhe diz o que dizer, preenchendo você sobre coisas que você pode não saber.

Como arquiteto sênior, ao priorizar o que focar em um serviço de back-end, priorizo a escalabilidade. Esse tipo de ferramenta vai causar um grande impacto no processo de entrevista de emprego. Geralmente, quando essas grandes tecnologias surgem, como computadores ou a internet, elas mudam todos os processos que surgiram antes delas. Isso significa que algumas dessas perguntas podem não fazer mais sentido se olharmos muito para o futuro.

Achei essa uma ideia fantástica porque naquela época, eu estava passando por alguns processos de entrevista de emprego, então eu adoraria ter uma ferramenta em tempo real que pudesse me ajudar a passar nelas. Eu realmente tentei construir esse protótipo em que ele usava um modelo de fala para texto para gerar a transcrição e também usava um modelo de linguagem grande para gerar respostas, mas esse protótipo nunca funcionou bem na vida real. Um dos requisitos difíceis para esses copilotos de entrevista ou conversa em tempo real é que eles precisam ter baixa latência e serem em tempo real. Se levasse 30-40 segundos para gerar alguns resultados, não iria realmente funcionar. Infelizmente, esse foi o caso em março do ano passado, pois tanto o modelo de fala para texto quanto o modelo de linguagem grande levaram bastante tempo para inferir. Este era um projeto simples em teoria, mas muito difícil de construir um produto utilizável na prática.

Desafios na Construção de Transcrição em Tempo Real e Inferência Rápida

No entanto, alguns meses depois, vi outro produto mostrando um cenário semelhante, mas com um desempenho quase em tempo real. Na engenharia aeroespacial, como em motores a jato ou reentrada de espaçonaves, como você aborda esses desafios?

Construindo uma Demo de Co-piloto de Conversação Baseada na Web

Existem dois componentes-chave para construir um companheiro de conversa em tempo real: transcrição em tempo real e inferência rápida.

Transcrição em Tempo Real

Alcançar a transcrição em tempo real é um dos maiores desafios. Modelos típicos de fala para texto, como o Whisper, não são projetados para cenários de streaming, onde o áudio é processado em pequenos pedaços em vez da gravação inteira.

Para superar isso, uma solução comum é criar um loop recorrente que capture continuamente pequenos pedaços de áudio (por exemplo, a cada 2-5 segundos), os envie para o modelo de fala para texto e junte as pequenas transcrições. Essa abordagem requer otimizações para garantir a precisão, como comparar os timestamps das palavras de conexão para melhorar a transcrição final.

Felizmente, a tecnologia de fala para texto evoluiu rapidamente, e agora existem soluções que permitem a transcrição em tempo real, como o uso de modelos incrivelmente rápidos hospedados em plataformas como a Replicate ou o implantação de modelos leves como o Whisper Kit diretamente em dispositivos móveis.

Inferência Rápida

O segundo desafio é alcançar uma inferência muito rápida com o modelo de linguagem grande para gerar sugestões em tempo real. Para resolver isso:

Escolha um modelo de linguagem rápido e pequeno: Modelos como o Meteo 7B são muito menores e mais rápidos que o GPT-4, permitindo uma geração de respostas mais rápida com menos recursos computacionais.
Reduzir o tamanho da entrada: À medida que a conversa fica mais longa, a entrada para o modelo de linguagem pode se tornar muito grande. Técnicas como a sumarização do modelo de linguagem podem ser usadas para extrair apenas as informações relevantes e reduzir o tamanho da entrada.
Otimizar a geração de saída: Otimizações adicionais podem ser feitas para reduzir a contagem de tokens de saída, como o uso de métodos de engenharia de prompt.

Aproveitando o Whisper Kit para um Co-piloto de Conversação Móvel

Para construir uma demonstração de um copilotos de conversa baseado na web, usaremos uma combinação de Flask (um framework web Python) e Replicate (uma plataforma para executar modelos de IA de código aberto).

Os principais componentes são:

Transcrição em Tempo Real: Usaremos um modelo rápido de fala para texto da Replicate para gerar uma transcrição em tempo real da conversa. Isso envolve capturar continuamente pequenos pedaços de áudio, enviá-los para o modelo de fala para texto e juntar os resultados.
Inferência Rápida: Usaremos um modelo de linguagem pequeno e rápido da Replicate (como o Minitram) para gerar sugestões e respostas com base na transcrição em tempo real. Também exploraremos técnicas como reduzir o tamanho da entrada e resumir a conversa para melhorar a velocidade.

O aplicativo web terá os seguintes recursos:

Um campo de texto para o usuário fornecer o contexto sobre a conversa.
Um botão "Gravar" para iniciar e parar a gravação de áudio.
Um botão "Obter Sugestão" para acionar o modelo de linguagem e obter sugestões.
Uma exibição em tempo real da transcrição.
Uma exibição das sugestões geradas.

Conclusão

Depois de ver a impressionante demonstração do copilotos de conversa baseado na web, decidi explorar o potencial de construir uma versão móvel usando a estrutura de código aberto Whisper Kit. O Whisper Kit fornece um pacote Swift que permite o implantação do modelo de fala para texto Whisper diretamente em dispositivos iOS, permitindo a transcrição em tempo real com latência mínima.

Para começar, clonei o repositório GitHub do Whisper Kit e abri o projeto de exemplo no Xcode. O projeto inclui uma pasta whisper-ax, que contém o código-fonte de um aplicativo iOS de exemplo que demonstra o uso do Whisper Kit.

No arquivo ContentView.swift, primeiro defini algumas variáveis de estado adicionais para lidar com a entrada do prompt e o resumo da resposta da API do modelo de linguagem grande. Em seguida, adicionei um campo de entrada para o usuário personalizar o prompt, que será usado para fornecer contexto ao modelo de linguagem grande.

Depois, implementei a função getSuggestion(), que é responsável por enviar a transcrição e o prompt para a API da Replicate para gerar uma resposta do modelo de linguagem Mistral. Essa função lida com a natureza de streaming da API da Replicate, verificando continuamente o status até que a resposta esteja completa e, em seguida, atualizando a variável de estado API_response_summary com a sugestão gerada.

Finalmente, adicionei um botão "Obter Sugestão" que aciona a função getSuggestion() e exibi o resumo da resposta da API abaixo da transcrição em tempo real.

O aplicativo iOS resultante permite que os usuários iniciem uma conversa, vejam a transcrição em tempo real e recebam sugestões instantâneas do modelo de linguagem grande para ajudar a orientar a conversa. O uso do Whisper Kit para a funcionalidade de fala para texto, combinado com a integração da API da Replicate, fornece uma experiência de copilotos de conversa suave e responsiva diretamente no dispositivo móvel do usuário.

Essa abordagem desbloqueia novas possibilidades para assistência conversacional em tempo real e sensível ao contexto, capacitando os usuários com suporte inteligente durante discussões, entrevistas e interações sociais importantes. Ao aproveitar os últimos avanços em reconhecimento de fala e modelos de linguagem grande, o copilotos de conversa móvel pode se tornar uma ferramenta valiosa para melhorar a comunicação e a produtividade.

Em conclusão, o desenvolvimento de um copilotos de conversa em tempo real é uma tarefa complexa que requer abordar vários desafios-chave. Os principais desafios incluem:

Geração de Transcrição em Tempo Real: Alcançar a transcrição de fala para texto de baixa latência e precisa é crucial para fornecer feedback em tempo real. Técnicas como o uso de um modelo de reconhecimento de fala em streaming e a otimização da conexão entre os pedaços de áudio e o texto transcrito são essenciais.
Inferência Rápida do Modelo de Linguagem Grande: Gerar sugestões e respostas relevantes rapidamente requer o uso de modelos de linguagem menores e especializados que possam fornecer tempos de inferência rápidos. Técnicas como reduzir o tamanho do token de entrada e resumir o histórico da conversa podem ajudar a melhorar o desempenho.
Integração Perfeita: Combinar a geração de transcrição em tempo real e a inferência do modelo de linguagem grande em um aplicativo coeso e amigável ao usuário é crucial para fornecer uma experiência suave e eficaz.

A demonstração mostrou como esses desafios podem ser abordados usando uma combinação de tecnologias, incluindo o modelo de fala para texto Whisper, o modelo de linguagem Minstrel e a plataforma Replicate para implantação fácil. Os aplicativos web e móveis resultantes fornecem transcrição em tempo real e geração de sugestões, mostrando o potencial dessa tecnologia para melhorar vários cenários de conversação, como entrevistas de emprego, entrevistas de pesquisa de usuário e interações sociais.

Em geral, o desenvolvimento de um copilotos de conversa em tempo real é uma área promissora de pesquisa e desenvolvimento, com o potencial de melhorar significativamente a qualidade e a eficácia da comunicação humana-humana.

Perguntas frequentes

Como você decide o que priorizar ao detectar um serviço de back-end como um arquiteto sênior?

Como você aborda os desafios na engenharia aeroespacial, como a seleção de materiais para aplicações de alta temperatura?

Como um co-piloto de conversa em tempo real pode agregar valor a entrevistas de usuários e entrevistas de emprego?

Quais são os principais componentes para construir um co-piloto de conversa em tempo real?

Como você pode construir um co-piloto de conversa em tempo real usando tecnologias existentes?

Crie sua namorada com IA

Crie sua companheira ideal com nosso AI Girlfriend Builder