Libera el poder de la IA de texto a voz local: crea voces increíbles de forma gratuita

Libera el poder de la IA de texto a voz local: crea voces increíbles de forma gratuita. Descubre 4 métodos para generar voces de texto a voz de alta calidad y personalizables en tu computadora local. Desde la clonación rápida hasta el ajuste fino de modelos, crea la voz de IA perfecta para tus proyectos.

14 de febrero de 2025

party-gif

Crea tus propias voces de texto a voz personalizadas localmente de forma gratuita con esta guía paso a paso. Descubre cómo generar voces de IA de alta calidad utilizando técnicas de clonación sencillas y modelos ajustados con precisión, todo ello sin depender de servicios de terceros costosos.

El texto a voz más fácil: clonación rápida con 10 segundos de audio

Para usar el método de clonación rápida con 10 segundos de audio:

  1. Ve a la carpeta xtts-webui y ejecuta el archivo start-xtts-webui.bat. Esto descargará los archivos necesarios y lanzará la interfaz web.

  2. En la interfaz web, ingresa el texto que quieres que tu voz lea. No hay límite de caracteres.

  3. Selecciona el idioma deseado del menú desplegable.

  4. Carga un clip de audio de entre 5 y 10 segundos de duración. Este se utilizará para clonar la voz.

  5. Haz clic en "Generar" y en unos segundos tendrás el archivo de audio generado listo para usar.

Esta es la forma más fácil y perezosa de crear texto a voz en tu computadora local. Si bien no es perfecto, proporciona una solución rápida utilizando solo 10 segundos de audio.

El texto a voz medio: ajuste fino de tu propio modelo XTTS

Ahora, pasemos al método de texto a voz de nivel medio, donde entrenaremos nuestro propio modelo XTTS desde cero. Este método requiere solo 2 minutos de audio, mucho menos que los 10-20 minutos típicos necesarios para obtener buenos resultados.

Primero, ve a la carpeta de la interfaz web de ajuste fino de XTTS y ejecuta el archivo start.bat. Esto te dará una URL local que puedes abrir en tu navegador.

Para este método, necesitarás un archivo de audio de 2 minutos. Si eres perezoso como yo, puedes tomar un clip de audio de 30 segundos y repetirlo varias veces en Audacity para crear un archivo de 2 minutos.

Una vez que tengas el archivo de audio, cárgalo en la interfaz web. Asegúrate de seleccionar el idioma correcto (en este caso, inglés). Luego, haz clic en el botón "Paso 1: Crear conjunto de datos". Dependiendo de la duración de tu audio, el proceso de formateo puede tardar un minuto o menos.

A continuación, pasa a la segunda pestaña. Puedes dejar la configuración como está, pero es posible que quieras aumentar el número de épocas del valor predeterminado de 6 a algo como 10 o 12 para obtener mejores resultados. Asegúrate de usar la versión 2.0.2, ya que es la mejor.

Haz clic en el botón "Ejecutar el entrenamiento" y comenzará el entrenamiento. Una vez finalizado, haz clic en el botón "Optimizar el modelo" para hacer que los archivos finales sean más pequeños y fáciles de usar.

Finalmente, pasa a la tercera pestaña llamada "Inferencia". Haz clic en el botón "Cargar parámetros para TTS desde la carpeta de salida", luego en el botón "Cargar modelo". Ahora puedes ingresar tu texto y hacer clic en "Inferencia" para generar el audio.

El audio resultante será mucho mejor que el método inicial de clonación de 10 segundos, ya que el modelo se ha ajustado a tu voz. Notarás cosas como pausas, sonidos de "eh" y otros matices que estaban presentes en el audio de referencia.

Con este modelo ajustado, ahora puedes usarlo tanto como quieras, ya que no hay limitaciones. Este método de texto a voz de nivel medio es un gran compromiso entre esfuerzo y calidad.

La combinación definitiva de texto a voz: XTTS + RVC

Ahora que hemos instalado todo el software necesario, sumerjámonos en la combinación definitiva de texto a voz utilizando XTTS y RVC.

Método A: Conversión simple

  1. Dentro de la interfaz web de XTTS, ingresa tu texto y el archivo de audio de referencia.
  2. Haz clic en "Generar" para obtener el audio inicial de texto a voz.
  3. Descarga el archivo generado.
  4. Inicia RVC y selecciona el modelo de voz de referencia.
  5. Pega la ruta del archivo descargado y haz clic en "Convertir".
  6. El audio final tendrá la voz del modelo de referencia.

Método B: XTTS + RVC automático

  1. Ve a la carpeta de la interfaz de XTTS RVC e ingresa el modelo de voz de RVC (los archivos .pth e índice).
  2. En la carpeta "voices", ingresa la muestra de voz de referencia (el clip de audio de 10 segundos).
  3. Ejecuta el archivo .bat y abre la URL local en tu navegador.
  4. Elige el idioma, el modelo de RVC y la muestra de voz.
  5. Ingresa tu texto y haz clic en "Enviar".
  6. El audio final se generará automáticamente, combinando XTTS y RVC.

Método C: Texto a voz Uber

  1. Ve a la carpeta de la interfaz web de ajuste fino de XTTS y localiza los archivos del modelo XTTS ajustado.
  2. Corta estos archivos y pégalos en la carpeta "models" de la interfaz web de XTTS.
  3. Ejecuta la interfaz web de XTTS y selecciona el modelo XTTS personalizado.
  4. Ingresa tu texto y el audio de referencia, luego haz clic en "Generar".
  5. Descarga el archivo generado y ábrelo en RVC.
  6. Selecciona el modelo de voz de referencia y haz clic en "Convertir".
  7. El audio final será la combinación definitiva de texto a voz, utilizando el modelo XTTS personalizado y RVC.

Recuerda, el método Uber proporciona la mayor calidad y autenticidad, pero requiere más esfuerzo. Elige el método que mejor se adapte a tus necesidades y preferencias.

Conclusión

En esta guía exhaustiva, hemos explorado varios métodos para crear voces de texto a voz (TTS) de alta calidad y personalizadas en tu computadora local. Desde el método de clonación de voz súper perezoso de 10 segundos hasta el nivel Uber definitivo de TTS, hemos cubierto una variedad de técnicas para adaptarse a tus necesidades específicas.

Comenzando con el método más sencillo, demostramos cómo usar la interfaz web de XTTS para generar audio de TTS a partir de solo 10 segundos de audio de referencia. Este enfoque rápido y fácil te permite crear voces personalizadas con un esfuerzo mínimo.

Luego, profundizamos en el método de TTS de nivel medio, donde ajustamos un modelo XTTS utilizando solo 2 minutos de audio. Este proceso nos permitió crear una voz de TTS más auténtica y expresiva, adaptada a las características únicas del hablante.

Finalmente, revelamos el método de TTS Uber definitivo, que combina el poder de XTTS y RVC (Real-Voice Cloning) para lograr el más alto nivel de calidad y autenticidad. Al aprovechar nuestro modelo XTTS entrenado a medida y las avanzadas capacidades de conversión de voz de RVC, pudimos generar audio de TTS que se asemeja mucho al hablante original.

A lo largo de la guía, proporcionamos instrucciones paso a paso y consejos prácticos para garantizar un proceso de instalación e implementación sin problemas. Ya seas un principiante o un usuario experimentado, ahora tienes el conocimiento y las herramientas para crear tus propias voces de TTS de alta calidad en tu computadora local, sin la necesidad de software de terceros costoso.

Recuerda, los recursos y gráficos mencionados en la guía están disponibles de forma gratuita en mi Patreon, así que asegúrate de revisar la descripción para obtener los enlaces. Y si tienes alguna pregunta o necesitas más ayuda, no dudes en comunicarte conmigo a través de la plataforma de Patreon, donde brindo soporte prioritario a mis patrocinadores.

¡Felices aventuras de texto a voz y disfruta del poder de las voces de TTS personalizadas y locales!

Preguntas más frecuentes