Libere o Poder da IA de Texto-para-Fala Local: Crie Vozes Incríveis de Graça
Libere o Poder da IA de Texto-para-Fala Local: Crie Vozes Incríveis de Graça. Descubra 4 métodos para gerar vozes de texto-para-fala de alta qualidade e personalizáveis em seu computador local. Desde clonagem rápida até o ajuste fino de modelos, crie a voz de IA perfeita para seus projetos.
24 de fevereiro de 2025

Crie suas próprias vozes de texto para fala personalizadas localmente de graça com este guia passo a passo. Descubra como gerar vozes de IA de alta qualidade usando técnicas de clonagem simples e modelos refinados, tudo sem depender de serviços terceirizados caros.
O Texto-para-Fala Mais Fácil: Clonagem Rápida com 10 Segundos de Áudio
O Texto-para-Fala Médio: Ajuste Fino do Seu Próprio Modelo XTTS
A Combinação Definitiva de Texto-para-Fala: XTTS + RVC
Conclusão
O Texto-para-Fala Mais Fácil: Clonagem Rápida com 10 Segundos de Áudio
O Texto-para-Fala Mais Fácil: Clonagem Rápida com 10 Segundos de Áudio
Para usar o método de clonagem rápida com 10 segundos de áudio:
-
Vá para a pasta
xtts-webui
e inicie o arquivostart-xtts-webui.bat
. Isso fará o download dos arquivos necessários e iniciará a interface web. -
Na interface web, insira o texto que você deseja que sua voz leia. Não há limite de caracteres.
-
Selecione o idioma desejado no menu suspenso.
-
Faça o upload de um clipe de áudio entre 5 e 10 segundos de duração. Esse será usado para clonar a voz.
-
Clique em "Gerar" e, em poucos segundos, você terá o arquivo de áudio gerado pronto para uso.
Esta é a maneira mais fácil e preguiçosa de criar text-to-speech em seu computador local. Embora não seja perfeito, ele fornece uma solução rápida usando apenas 10 segundos de áudio.
O Texto-para-Fala Médio: Ajuste Fino do Seu Próprio Modelo XTTS
O Texto-para-Fala Médio: Ajuste Fino do Seu Próprio Modelo XTTS
Agora, vamos passar para o método de text-to-speech de nível médio, onde treinaremos nosso próprio modelo XTTS do zero. Esse método requer apenas 2 minutos de áudio, muito menos do que os típicos 10-20 minutos necessários para obter bons resultados.
Primeiro, vá para a pasta da interface web de ajuste fino do XTTS e inicie o arquivo start.bat
. Isso lhe dará uma URL local que você pode abrir em seu navegador.
Para este método, você precisará de um arquivo de áudio com 2 minutos de duração. Se você estiver se sentindo preguiçoso como eu, pode simplesmente pegar um clipe de áudio de 30 segundos e repeti-lo várias vezes no Audacity para criar um arquivo de 2 minutos.
Depois de ter o arquivo de áudio, faça o upload dele na interface web. Certifique-se de selecionar o idioma correto (neste caso, o inglês). Em seguida, clique no botão "Etapa 1: Criar conjunto de dados". Dependendo do comprimento do seu áudio, o processo de formatação pode levar um minuto ou menos.
Próximo, vá para a segunda guia. Você pode deixar as configurações como estão, mas pode querer aumentar o número de épocas do padrão 6 para algo como 10 ou 12 para obter melhores resultados. Certifique-se de estar usando a versão 2.0.2, pois é a melhor.
Clique no botão "Executar o treinamento" e o treinamento começará. Quando terminar, clique no botão "Otimizar o modelo" para tornar os arquivos finais menores e mais fáceis de usar.
Finalmente, vá para a terceira guia chamada "Inferência". Clique no botão "Carregar parâmetros para TTS da pasta de saída", depois no botão "Carregar modelo". Agora, você pode inserir seu texto e clicar em "Inferência" para gerar o áudio.
O áudio resultante será muito melhor do que o método inicial de clonagem de 10 segundos, pois o modelo foi ajustado fino à sua voz. Você notará coisas como pausas, sons de "uh" e outras peculiaridades que estavam presentes no áudio de referência.
Com este modelo ajustado fino, você pode usá-lo o quanto quiser, pois não há limitações. Este método de text-to-speech de nível médio é um ótimo compromisso entre esforço e qualidade.
A Combinação Definitiva de Texto-para-Fala: XTTS + RVC
A Combinação Definitiva de Texto-para-Fala: XTTS + RVC
Agora que instalamos todo o software necessário, vamos mergulhar na combinação definitiva de text-to-speech usando XTTS e RVC.
Método A: Conversão Simples
- Dentro da interface web do XTTS, insira seu texto e o arquivo de áudio de referência.
- Clique em "Gerar" para obter o áudio de text-to-speech inicial.
- Baixe o arquivo gerado.
- Inicie o RVC e selecione o modelo de voz de referência.
- Cole o caminho do arquivo baixado e clique em "Converter".
- O áudio final agora terá a voz do modelo de referência.
Método B: XTTS + RVC Automático
- Vá para a pasta da interface XTTS RVC e insira o modelo de voz RVC (os arquivos .pth e index).
- Na pasta "vozes", insira a amostra de voz de referência (o clipe de áudio de 10 segundos).
- Inicie o arquivo .bat e abra a URL local em seu navegador.
- Escolha o idioma, o modelo RVC e a amostra de voz.
- Insira seu texto e clique em "Enviar".
- O áudio final será gerado automaticamente, combinando XTTS e RVC.
Método C: Uber Text-to-Speech
- Vá para a pasta da interface web de ajuste fino do XTTS e localize os arquivos do modelo XTTS ajustado fino.
- Recorte esses arquivos e cole-os na pasta "modelos" da interface web do XTTS.
- Inicie a interface web do XTTS e selecione o modelo XTTS personalizado.
- Insira seu texto e o áudio de referência, depois clique em "Gerar".
- Baixe o arquivo gerado e abra-o no RVC.
- Selecione o modelo de voz de referência e clique em "Converter".
- O áudio final será a combinação definitiva de text-to-speech, usando o modelo XTTS personalizado e o RVC.
Lembre-se, o método Uber fornece a maior qualidade e autenticidade, mas requer mais esforço. Escolha o método que melhor atenda às suas necessidades e preferências.
Conclusão
Conclusão
Neste guia abrangente, exploramos vários métodos para criar vozes de text-to-speech (TTS) personalizadas e de alta qualidade em seu computador local. Desde a clonagem de voz super preguiçosa de 10 segundos até o TTS definitivo de nível Uber, cobrimos uma variedade de técnicas para atender às suas necessidades específicas.
Partindo do método mais simples, demonstramos como usar a interface web do XTTS para gerar áudio de TTS a partir de apenas 10 segundos de áudio de referência. Essa abordagem rápida e fácil permite que você crie vozes personalizadas com o mínimo de esforço.
Em seguida, mergulhamos no método de TTS de nível médio, onde ajustamos fino um modelo XTTS usando apenas 2 minutos de áudio. Esse processo nos permitiu criar uma voz de TTS mais autêntica e expressiva, adaptada às características únicas do locutor.
Finalmente, revelamos o método definitivo de TTS Uber, que combina o poder do XTTS e do RVC (Real-Voice Cloning) para alcançar o mais alto nível de qualidade e autenticidade. Ao aproveitar nosso modelo XTTS treinado sob medida e os recursos avançados de conversão de voz do RVC, conseguimos gerar áudio de TTS que se assemelha muito ao locutor original.
Ao longo do guia, fornecemos instruções passo a passo e dicas práticas para garantir um processo de instalação e implementação sem problemas. Seja você um iniciante ou um usuário experiente, agora você tem o conhecimento e as ferramentas para criar suas próprias vozes de TTS de alta qualidade em seu computador local, sem a necessidade de software de terceiros caro.
Lembre-se, os recursos e gráficos mencionados no guia estão disponíveis gratuitamente em meu Patreon, então não deixe de verificar a descrição para os links. E se você tiver alguma dúvida ou precisar de mais assistência, sinta-se à vontade para entrar em contato comigo através da plataforma do Patreon, onde forneço suporte prioritário aos meus patronos.
Divirta-se com as aventuras de text-to-speech e aproveite o poder das vozes de TTS personalizadas e locais!
Perguntas frequentes
Perguntas frequentes