Sblocca il potere dell'IA di text-to-speech locale: crea voci incredibili gratuitamente

Sblocca il potere dell'intelligenza artificiale locale per la sintesi vocale: crea voci incredibili gratuitamente. Scopri 4 metodi per generare voci di sintesi vocale di alta qualità e personalizzabili sul tuo computer locale. Dalla clonazione rapida alla messa a punto dei modelli, crea la voce AI perfetta per i tuoi progetti.

26 marzo 2025

Crea le tue voci di sintesi vocale personalizzate localmente in modo gratuito con questa guida passo dopo passo. Scopri come generare voci AI di alta qualità utilizzando semplici tecniche di clonazione e modelli affinati, senza dover fare affidamento su costosi servizi di terze parti.

Il testo-to-speech più semplice: clonazione rapida con 10 secondi di audio
Il testo-to-speech medio: perfezionamento del tuo modello XTTS
La combinazione definitiva di testo-to-speech: XTTS + RVC
Conclusione

Il testo-to-speech più semplice: clonazione rapida con 10 secondi di audio

Per utilizzare il metodo di clonazione rapida con 10 secondi di audio:

Vai alla cartella xtts-webui e avvia il file start-xtts-webui.bat. Questo scaricherà i file necessari e avvierà l'interfaccia web.
Nell'interfaccia web, inserisci il testo che vuoi far leggere dalla tua voce. Non c'è limite di caratteri.
Seleziona la lingua desiderata dal menu a discesa.
Carica un clip audio di 5-10 secondi. Questo verrà utilizzato per clonare la voce.
Fai clic su "Genera" e in pochi secondi avrai il file audio generato pronto per l'uso.

Il testo-to-speech medio: perfezionamento del tuo modello XTTS

Ora passiamo al metodo di text-to-speech di livello medio, dove addestreremo il nostro modello XTTS da zero. Questo metodo richiede solo 2 minuti di audio, molto meno dei tipici 10-20 minuti necessari per ottenere buoni risultati.

Prima di tutto, vai alla cartella dell'interfaccia web di XTTS fine-tune e avvia il file start.bat. Questo ti darà un URL locale che puoi aprire nel tuo browser.

Per questo metodo, avrai bisogno di un file audio di 2 minuti. Se sei pigro come me, puoi semplicemente prendere un clip audio di 30 secondi e ripeterlo più volte in Audacity per creare un file di 2 minuti.

Una volta che hai il file audio, caricalo nell'interfaccia web. Assicurati di selezionare la lingua corretta (in questo caso, l'inglese). Quindi, fai clic sul pulsante "Passo 1: Crea dataset". A seconda della durata del tuo audio, il processo di formattazione potrebbe richiedere un minuto o meno.

Successivamente, passa alla seconda scheda. Puoi lasciare le impostazioni così come sono, ma potresti voler aumentare il numero di epoche dal valore predefinito di 6 a qualcosa come 10 o 12 per ottenere risultati migliori. Assicurati di utilizzare la versione 2.0.2, poiché è la migliore.

Fai clic sul pulsante "Esegui l'addestramento" e l'addestramento avrà inizio. Una volta terminato, fai clic sul pulsante "Ottimizza il modello" per rendere i file finali più piccoli e più facili da utilizzare.

Infine, passa alla terza scheda chiamata "Inferenza". Fai clic sul pulsante "Carica i parametri per TTS dalla cartella di output", quindi sul pulsante "Carica modello". Ora puoi inserire il tuo testo e fare clic su "Inferenza" per generare l'audio.

L'audio risultante sarà molto migliore rispetto al metodo di clonazione iniziale di 10 secondi, poiché il modello è stato perfezionato sulla tua voce. Noterai cose come pause, suoni "uh" e altri dettagli caratteristici presenti nell'audio di riferimento.

Con questo modello perfezionato, puoi ora utilizzarlo quanto vuoi, senza limitazioni. Questo metodo di text-to-speech di livello medio è un ottimo compromesso tra sforzo e qualità.

La combinazione definitiva di testo-to-speech: XTTS + RVC

Ora che abbiamo installato tutto il software necessario, immergiamoci nella combinazione definitiva di text-to-speech utilizzando XTTS e RVC.

Metodo A: Conversione semplice

All'interno dell'interfaccia web di XTTS, inserisci il tuo testo e il file audio di riferimento.
Fai clic su "Genera" per ottenere l'audio di text-to-speech iniziale.
Scarica il file generato.
Avvia RVC e seleziona il modello vocale di riferimento.
Incolla il percorso del file scaricato e fai clic su "Converti".
L'audio finale avrà la voce del modello di riferimento.

Metodo B: XTTS + RVC automatico

Vai alla cartella XTTS RVC UI e inserisci il modello vocale RVC (i file .pth e index).
Nella cartella "voices", inserisci il campione vocale di riferimento (il clip audio di 10 secondi).
Avvia il file .bat e apri l'URL locale nel tuo browser.
Scegli la lingua, il modello RVC e il campione vocale.
Inserisci il tuo testo e fai clic su "Invia".
L'audio finale verrà generato automaticamente, combinando XTTS e RVC.

Metodo C: Uber Text-to-Speech

Vai alla cartella dell'interfaccia web di XTTS fine-tune e individua i file del modello XTTS perfezionato.
Taglia questi file e incollali nella cartella "models" dell'interfaccia web di XTTS.
Avvia l'interfaccia web di XTTS e seleziona il modello XTTS personalizzato.
Inserisci il tuo testo e l'audio di riferimento, quindi fai clic su "Genera".
Scarica il file generato e aprilo in RVC.
Seleziona il modello vocale di riferimento e fai clic su "Converti".
L'audio finale sarà la combinazione definitiva di text-to-speech, utilizzando il modello XTTS personalizzato e RVC.

Ricorda, il metodo Uber offre la massima qualità e autenticità, ma richiede più sforzo. Scegli il metodo che meglio si adatta alle tue esigenze e preferenze.

Conclusione

In questa guida completa, abbiamo esplorato vari metodi per creare voci di text-to-speech (TTS) di alta qualità e personalizzate sul tuo computer locale. Dalla clonazione vocale super pigra di 10 secondi all'ultima combinazione Uber di TTS, abbiamo coperto una gamma di tecniche per soddisfare le tue esigenze specifiche.

Partendo dal metodo più semplice, abbiamo dimostrato come utilizzare l'interfaccia web di XTTS per generare audio TTS da soli 10 secondi di audio di riferimento. Questo approccio rapido e facile ti permette di creare voci personalizzate con uno sforzo minimo.

Successivamente, ci siamo immersi nel metodo TTS di livello medio, dove abbiamo perfezionato un modello XTTS utilizzando solo 2 minuti di audio. Questo processo ci ha permesso di creare una voce TTS più autentica ed espressiva, personalizzata sulle caratteristiche uniche del parlante.

Infine, abbiamo svelato il metodo Uber TTS definitivo, che combina la potenza di XTTS e RVC (Real-Voice Cloning) per raggiungere il massimo livello di qualità e autenticità. Sfruttando il nostro modello XTTS personalizzato e le avanzate capacità di conversione vocale di RVC, siamo stati in grado di generare audio TTS che assomiglia molto all'oratore originale.

Lungo la guida, abbiamo fornito istruzioni passo-passo e consigli pratici per garantire un processo di installazione e implementazione senza intoppi. Che tu sia un principiante o un utente esperto, ora hai le conoscenze e gli strumenti per creare le tue voci TTS di alta qualità sul tuo computer locale, senza bisogno di software di terze parti costosi.

Ricorda, le risorse e i grafici menzionati nella guida sono disponibili gratuitamente sul mio Patreon, quindi controlla la descrizione per i link. E se hai domande o hai bisogno di ulteriore assistenza, non esitare a contattarmi tramite la piattaforma Patreon, dove fornisco supporto prioritario ai miei patroni.

Buoni viaggi nel text-to-speech e goditi il potere delle voci TTS personalizzate e locali!

FAQ

Qual è il modo più semplice per creare voci di intelligenza artificiale per la sintesi vocale localmente?

Come posso migliorare la qualità delle voci di sintesi vocale?

Qual è il metodo definitivo per creare le migliori voci di intelligenza artificiale per la sintesi vocale locale?

Come posso utilizzare facilmente il mio modello XTTS perfezionato?

Esiste un modo per automatizzare il processo di generazione e conversione dell'audio di sintesi vocale?

Crea la tua ragazza AI

Costruisci il tuo compagno ideale con il nostro costruttore di fidanzate AI