Ontdek de kracht van lokale Text-to-Speech AI: Creëer ongelooflijke stemmen gratis

Ontdek de kracht van lokale text-to-speech AI: Creëer ongelooflijke stemmen gratis. Ontdek 4 methoden om hoogwaardige, aanpasbare text-to-speech stemmen te genereren op uw lokale computer. Van snel klonen tot het finetunen van modellen, creëer de perfecte AI-stem voor uw projecten.

23 april 2025

Maak uw eigen aangepaste tekst-naar-spraak stemmen lokaal gratis met deze stap-voor-stap gids. Ontdek hoe u hoogwaardige AI-stemmen kunt genereren met behulp van eenvoudige kloningstechnieken en fijnafgestemde modellen, allemaal zonder dure diensten van derden.

De eenvoudigste tekst-naar-spraak: snel klonen met 10 seconden audio
De gemiddelde tekst-naar-spraak: finetunen van je eigen XTTS-model
De ultieme tekst-naar-spraak combinatie: XTTS + RVC
Conclusie

De eenvoudigste tekst-naar-spraak: snel klonen met 10 seconden audio

Om de snelle kloonmethode met 10 seconden audio te gebruiken:

Ga naar de xtts-webui-map en start het bestand start-xtts-webui.bat. Hiermee worden de benodigde bestanden gedownload en de web-UI gestart.
Voer in de web-UI de tekst in die je wilt laten voorlezen. Er is geen limiet aan het aantal tekens.
Selecteer de gewenste taal uit de vervolgkeuzelijst.
Upload een audioclip van 5-10 seconden. Deze wordt gebruikt om de stem te klonen.
Klik op "Genereren" en binnen enkele seconden heb je het gegenereerde audiobestand klaar voor gebruik.

Dit is de eenvoudigste en gemakkelijkste manier om tekst-naar-spraak te maken op je lokale computer. Hoewel niet perfect, biedt het een snelle oplossing met slechts 10 seconden audio.

De gemiddelde tekst-naar-spraak: finetunen van je eigen XTTS-model

Laten we nu overgaan naar de medium tekst-naar-spraak-methode, waarbij we ons eigen XTTS-model van scratch trainen. Deze methode vereist slechts 2 minuten audio, veel minder dan de gebruikelijke 10-20 minuten voor goede resultaten.

Ga eerst naar de XTTS fine-tune web-UI-map en start het bestand start.bat. Hiermee krijg je een lokale URL die je in je browser kunt openen.

Voor deze methode heb je een audiobestand nodig met 2 minuten audio. Als je net zo lui bent als ik, kun je gewoon een 30 seconden durende audioclip nemen en deze meerdere keren in Audacity herhalen om een 2 minuten bestand te maken.

Sobra je het audiobestand hebt, upload je het in de web-UI. Zorg ervoor dat je de juiste taal selecteert (in dit geval Engels). Klik vervolgens op de knop "Stap 1: Maak dataset". Afhankelijk van de lengte van je audio, kan het formatteren een minuut of minder duren.

Ga vervolgens naar het tweede tabblad. Je kunt de instellingen zo laten, maar je kunt het aantal epochs verhogen van de standaard 6 naar bijvoorbeeld 10 of 12 voor betere resultaten. Zorg ervoor dat je versie 2.0.2 gebruikt, want dat is de beste.

Klik op de knop "Start de training" en de training begint. Zodra deze is voltooid, klik je op de knop "Optimaliseer het model" om de uiteindelijke bestanden kleiner en gemakkelijker te gebruiken.

Ga ten slotte naar het derde tabblad met de naam "Inferentie". Klik op de knop "Laad parameters voor TTS uit de uitvoermap", gevolgd door de knop "Laad model". Nu kun je je tekst invoeren en op "Inferentie" klikken om de audio te genereren.

De resulterende audio zal veel beter zijn dan de initiële 10 seconden kloonmethode, omdat het model is fijnafgesteld op jouw stem. Je zult dingen opmerken zoals pauzes, "uh"-geluiden en andere eigenaardigheden die aanwezig waren in de referentie-audio.

Met dit fijnafgestemde model kun je het nu zo veel als je wilt gebruiken, want er zijn geen beperkingen. Deze medium tekst-naar-spraak-methode is een goede compromis tussen inspanning en kwaliteit.

De ultieme tekst-naar-spraak combinatie: XTTS + RVC

Nu we alle benodigde software hebben geïnstalleerd, laten we duiken in de ultieme tekst-naar-spraak-combinatie met XTTS en RVC.

Methode A: Eenvoudige conversie

Voer in de XTTS web-UI je tekst en het referentie-audiobestand in.
Klik op "Genereren" om de initiële tekst-naar-spraak-audio te krijgen.
Download het gegenereerde bestand.
Start RVC op en selecteer het referentie-stemmodel.
Plak het pad van het gedownloade bestand en klik op "Converteren".
De uiteindelijke audio zal nu de stem van het referentie-model hebben.

Methode B: Automatische XTTS + RVC

Ga naar de XTTS RVC UI-map en voer het RVC-stemmodel in (de .pth- en index-bestanden).
In de "voices"-map, voer je de referentie-stemopname in (de 10 seconden audioclip).
Start het .bat-bestand op en open de lokale URL in je browser.
Kies de taal, het RVC-model en de stemopname.
Voer je tekst in en klik op "Verzenden".
De uiteindelijke audio wordt automatisch gegenereerd, waarbij XTTS en RVC worden gecombineerd.

Methode C: Uber Tekst-naar-Spraak

Ga naar de XTTS fine-tune web-UI-map en zoek de bestanden van het fijnafgestemde XTTS-model.
Knip deze bestanden uit en plak ze in de "models"-map van de XTTS web-UI.
Start de XTTS web-UI op en selecteer het aangepaste XTTS-model.
Voer je tekst en de referentie-audio in, en klik op "Genereren".
Download het gegenereerde bestand en open het in RVC.
Selecteer het referentie-stemmodel en klik op "Converteren".
De uiteindelijke audio zal de ultieme tekst-naar-spraak-combinatie zijn, met gebruik van het aangepaste XTTS-model en RVC.

Onthoud dat de Uber-methode de hoogste kwaliteit en authenticiteit biedt, maar ook meer inspanning vereist. Kies de methode die het beste bij je behoeften en voorkeuren past.

Conclusie

In deze uitgebreide handleiding hebben we verschillende methoden verkend om hoogwaardige, op maat gemaakte tekst-naar-spraak (TTS)-stemmen te maken op je lokale computer. Van de super-luie 10 seconden stemkloon tot de ultieme Uber-niveau TTS, we hebben een reeks technieken behandeld om aan je specifieke behoeften te voldoen.

Beginnend met de eenvoudigste methode, hebben we laten zien hoe je de XTTS web-UI kunt gebruiken om TTS-audio te genereren op basis van slechts 10 seconden referentie-audio. Deze snelle en eenvoudige aanpak stelt je in staat om gepersonaliseerde stemmen te creëren met minimale inspanning.

Vervolgens hebben we ons verdiept in de medium-niveau TTS-methode, waarbij we een XTTS-model hebben fijnafgesteld met slechts 2 minuten audio. Dit proces stelde ons in staat om een authenticaardiger en expressievere TTS-stem te creëren, afgestemd op de unieke kenmerken van de spreker.

Ten slotte hebben we de ultieme Uber TTS-methode onthuld, die de kracht van XTTS en RVC (Real-Voice Cloning) combineert om het hoogste niveau van kwaliteit en authenticiteit te bereiken. Door gebruik te maken van ons op maat getrainde XTTS-model en de geavanceerde stemconversiecapaciteiten van RVC, konden we TTS-audio genereren die sterk lijkt op de oorspronkelijke spreker.

Doorheen de handleiding hebben we stap-voor-stap instructies en praktische tips gegeven om een naadloze installatie en implementatie te garanderen. Of je nu een beginner of een ervaren gebruiker bent, je hebt nu de kennis en tools om je eigen hoogwaardige TTS-stemmen te creëren op je lokale computer, zonder de noodzaak van dure software van derden.

Onthoud dat de vermelde bronnen en graphics gratis beschikbaar zijn op mijn Patreon, dus controleer zeker de beschrijving voor de links. En als je vragen hebt of verdere ondersteuning nodig, neem dan gerust contact met me op via het Patreon-platform, waar ik prioritaire ondersteuning bied aan mijn patronen.

Prettige tekst-naar-spraak-avonturen en geniet van de kracht van aangepaste, lokale TTS-stemmen!

FAQ

Wat is de eenvoudigste manier om lokaal text-to-speech AI-stemmen te maken?

Hoe kan ik de kwaliteit van de text-to-speech stemmen verbeteren?

Wat is de ultieme methode voor het maken van de beste lokale text-to-speech AI-stemmen?

Hoe kan ik mijn fijngekalibreerde XTTS-model gemakkelijk gebruiken?

Is er een manier om het proces van het genereren en converteren van de text-to-speech audio te automatiseren?

Creëer uw AI-vriendin

Bouw uw ideale metgezel met onze AI Girlfriend Builder