Libere o Poder da IA de Texto-para-Fala Local: Crie Vozes Incríveis de Graça

Libere o Poder da IA de Texto-para-Fala Local: Crie Vozes Incríveis de Graça. Descubra 4 métodos para gerar vozes de texto-para-fala de alta qualidade e personalizáveis em seu computador local. Desde clonagem rápida até o ajuste fino de modelos, crie a voz de IA perfeita para seus projetos.

21 de fevereiro de 2025

party-gif

Crie suas próprias vozes de texto para fala personalizadas localmente de graça com este guia passo a passo. Descubra como gerar vozes de IA de alta qualidade usando técnicas de clonagem simples e modelos refinados, tudo sem depender de serviços terceirizados caros.

O Texto-para-Fala Mais Fácil: Clonagem Rápida com 10 Segundos de Áudio

Para usar o método de clonagem rápida com 10 segundos de áudio:

  1. Vá para a pasta xtts-webui e inicie o arquivo start-xtts-webui.bat. Isso fará o download dos arquivos necessários e iniciará a interface web.

  2. Na interface web, insira o texto que você deseja que sua voz leia. Não há limite de caracteres.

  3. Selecione o idioma desejado no menu suspenso.

  4. Faça o upload de um clipe de áudio entre 5 e 10 segundos de duração. Esse será usado para clonar a voz.

  5. Clique em "Gerar" e, em poucos segundos, você terá o arquivo de áudio gerado pronto para uso.

Esta é a maneira mais fácil e preguiçosa de criar text-to-speech em seu computador local. Embora não seja perfeito, ele fornece uma solução rápida usando apenas 10 segundos de áudio.

O Texto-para-Fala Médio: Ajuste Fino do Seu Próprio Modelo XTTS

Agora, vamos passar para o método de text-to-speech de nível médio, onde treinaremos nosso próprio modelo XTTS do zero. Esse método requer apenas 2 minutos de áudio, muito menos do que os típicos 10-20 minutos necessários para obter bons resultados.

Primeiro, vá para a pasta da interface web de ajuste fino do XTTS e inicie o arquivo start.bat. Isso lhe dará uma URL local que você pode abrir em seu navegador.

Para este método, você precisará de um arquivo de áudio com 2 minutos de duração. Se você estiver se sentindo preguiçoso como eu, pode simplesmente pegar um clipe de áudio de 30 segundos e repeti-lo várias vezes no Audacity para criar um arquivo de 2 minutos.

Depois de ter o arquivo de áudio, faça o upload dele na interface web. Certifique-se de selecionar o idioma correto (neste caso, o inglês). Em seguida, clique no botão "Etapa 1: Criar conjunto de dados". Dependendo do comprimento do seu áudio, o processo de formatação pode levar um minuto ou menos.

Próximo, vá para a segunda guia. Você pode deixar as configurações como estão, mas pode querer aumentar o número de épocas do padrão 6 para algo como 10 ou 12 para obter melhores resultados. Certifique-se de estar usando a versão 2.0.2, pois é a melhor.

Clique no botão "Executar o treinamento" e o treinamento começará. Quando terminar, clique no botão "Otimizar o modelo" para tornar os arquivos finais menores e mais fáceis de usar.

Finalmente, vá para a terceira guia chamada "Inferência". Clique no botão "Carregar parâmetros para TTS da pasta de saída", depois no botão "Carregar modelo". Agora, você pode inserir seu texto e clicar em "Inferência" para gerar o áudio.

O áudio resultante será muito melhor do que o método inicial de clonagem de 10 segundos, pois o modelo foi ajustado fino à sua voz. Você notará coisas como pausas, sons de "uh" e outras peculiaridades que estavam presentes no áudio de referência.

Com este modelo ajustado fino, você pode usá-lo o quanto quiser, pois não há limitações. Este método de text-to-speech de nível médio é um ótimo compromisso entre esforço e qualidade.

A Combinação Definitiva de Texto-para-Fala: XTTS + RVC

Agora que instalamos todo o software necessário, vamos mergulhar na combinação definitiva de text-to-speech usando XTTS e RVC.

Método A: Conversão Simples

  1. Dentro da interface web do XTTS, insira seu texto e o arquivo de áudio de referência.
  2. Clique em "Gerar" para obter o áudio de text-to-speech inicial.
  3. Baixe o arquivo gerado.
  4. Inicie o RVC e selecione o modelo de voz de referência.
  5. Cole o caminho do arquivo baixado e clique em "Converter".
  6. O áudio final agora terá a voz do modelo de referência.

Método B: XTTS + RVC Automático

  1. Vá para a pasta da interface XTTS RVC e insira o modelo de voz RVC (os arquivos .pth e index).
  2. Na pasta "vozes", insira a amostra de voz de referência (o clipe de áudio de 10 segundos).
  3. Inicie o arquivo .bat e abra a URL local em seu navegador.
  4. Escolha o idioma, o modelo RVC e a amostra de voz.
  5. Insira seu texto e clique em "Enviar".
  6. O áudio final será gerado automaticamente, combinando XTTS e RVC.

Método C: Uber Text-to-Speech

  1. Vá para a pasta da interface web de ajuste fino do XTTS e localize os arquivos do modelo XTTS ajustado fino.
  2. Recorte esses arquivos e cole-os na pasta "modelos" da interface web do XTTS.
  3. Inicie a interface web do XTTS e selecione o modelo XTTS personalizado.
  4. Insira seu texto e o áudio de referência, depois clique em "Gerar".
  5. Baixe o arquivo gerado e abra-o no RVC.
  6. Selecione o modelo de voz de referência e clique em "Converter".
  7. O áudio final será a combinação definitiva de text-to-speech, usando o modelo XTTS personalizado e o RVC.

Lembre-se, o método Uber fornece a maior qualidade e autenticidade, mas requer mais esforço. Escolha o método que melhor atenda às suas necessidades e preferências.

Conclusão

Neste guia abrangente, exploramos vários métodos para criar vozes de text-to-speech (TTS) personalizadas e de alta qualidade em seu computador local. Desde a clonagem de voz super preguiçosa de 10 segundos até o TTS definitivo de nível Uber, cobrimos uma variedade de técnicas para atender às suas necessidades específicas.

Partindo do método mais simples, demonstramos como usar a interface web do XTTS para gerar áudio de TTS a partir de apenas 10 segundos de áudio de referência. Essa abordagem rápida e fácil permite que você crie vozes personalizadas com o mínimo de esforço.

Em seguida, mergulhamos no método de TTS de nível médio, onde ajustamos fino um modelo XTTS usando apenas 2 minutos de áudio. Esse processo nos permitiu criar uma voz de TTS mais autêntica e expressiva, adaptada às características únicas do locutor.

Finalmente, revelamos o método definitivo de TTS Uber, que combina o poder do XTTS e do RVC (Real-Voice Cloning) para alcançar o mais alto nível de qualidade e autenticidade. Ao aproveitar nosso modelo XTTS treinado sob medida e os recursos avançados de conversão de voz do RVC, conseguimos gerar áudio de TTS que se assemelha muito ao locutor original.

Ao longo do guia, fornecemos instruções passo a passo e dicas práticas para garantir um processo de instalação e implementação sem problemas. Seja você um iniciante ou um usuário experiente, agora você tem o conhecimento e as ferramentas para criar suas próprias vozes de TTS de alta qualidade em seu computador local, sem a necessidade de software de terceiros caro.

Lembre-se, os recursos e gráficos mencionados no guia estão disponíveis gratuitamente em meu Patreon, então não deixe de verificar a descrição para os links. E se você tiver alguma dúvida ou precisar de mais assistência, sinta-se à vontade para entrar em contato comigo através da plataforma do Patreon, onde forneço suporte prioritário aos meus patronos.

Divirta-se com as aventuras de text-to-speech e aproveite o poder das vozes de TTS personalizadas e locais!

Perguntas frequentes