Entfesseln Sie die Kraft der lokalen Text-to-Speech-KI: Erstellen Sie kostenlos unglaubliche Stimmen

Entfesseln Sie die Kraft der lokalen Text-to-Speech-KI: Erstellen Sie erstaunliche Stimmen kostenlos. Entdecken Sie 4 Methoden, um hochwertige, anpassbare Text-to-Speech-Stimmen auf Ihrem lokalen Computer zu generieren. Von schnellem Klonen bis hin zum Feintuning von Modellen, erstellen Sie die perfekte KI-Stimme für Ihre Projekte.

31. März 2025

Erstellen Sie Ihre eigenen benutzerdefinierten Text-to-Speech-Stimmen lokal und kostenlos mit dieser Schritt-für-Schritt-Anleitung. Entdecken Sie, wie Sie hochwertige KI-Stimmen mit einfachen Klontechniken und feinabgestimmten Modellen erzeugen können, ohne sich auf teure Drittanbieter-Dienste verlassen zu müssen.

Der einfachste Text-to-Speech: Schnelles Klonen mit 10 Sekunden Audio
Der mittlere Text-to-Speech: Feinabstimmung Ihres eigenen XTTS-Modells
Die ultimative Text-to-Speech-Kombination: XTTS + RVC
Schlussfolgerung

Der einfachste Text-to-Speech: Schnelles Klonen mit 10 Sekunden Audio

Um die schnelle Klonmethode mit 10 Sekunden Audio zu verwenden:

Gehen Sie zum xtts-webui-Ordner und starten Sie die Datei start-xtts-webui.bat. Dadurch werden die erforderlichen Dateien heruntergeladen und die Web-Benutzeroberfläche gestartet.
Geben Sie in der Web-Benutzeroberfläche den Text ein, den Sie von Ihrer Stimme lesen lassen möchten. Es gibt keine Zeichenbegrenzung.
Wählen Sie die gewünschte Sprache aus dem Dropdown-Menü aus.
Laden Sie einen Audioausschnitt zwischen 5 und 10 Sekunden Länge hoch. Dieser wird verwendet, um die Stimme zu klonen.
Klicken Sie auf "Generieren" und innerhalb weniger Sekunden haben Sie die generierte Audiodatei zum Gebrauch bereit.

Dies ist der einfachste und bequemste Weg, um Text-to-Speech auf Ihrem lokalen Computer zu erstellen. Auch wenn es nicht perfekt ist, bietet es eine schnelle Lösung mit nur 10 Sekunden Audio.

Der mittlere Text-to-Speech: Feinabstimmung Ihres eigenen XTTS-Modells

Lassen Sie uns nun zur mittleren Text-to-Speech-Methode übergehen, bei der wir unser eigenes XTTS-Modell von Grund auf trainieren. Diese Methode erfordert nur 2 Minuten Audio, was deutlich weniger ist als die typischen 10-20 Minuten, die für gute Ergebnisse benötigt werden.

Gehen Sie zunächst zum XTTS-Feinabstimmungs-Web-UI-Ordner und starten Sie die Datei start.bat. Dadurch erhalten Sie eine lokale URL, die Sie in Ihrem Browser öffnen können.

Für diese Methode benötigen Sie eine Audiodatei mit 2 Minuten Audio. Wenn Sie genauso faul sind wie ich, können Sie einfach einen 30-Sekunden-Audioausschnitt in Audacity mehrmals wiederholen, um eine 2-Minuten-Datei zu erstellen.

Sobald Sie die Audiodatei haben, laden Sie sie in die Web-Benutzeroberfläche hoch. Stellen Sie sicher, dass Sie die richtige Sprache (in diesem Fall Englisch) auswählen. Klicken Sie dann auf die Schaltfläche "Schritt 1: Datensatz erstellen". Je nach Länge Ihrer Audio kann der Formatierungsprozess eine Minute oder weniger dauern.

Gehen Sie als Nächstes zum zweiten Reiter. Sie können die Einstellungen so lassen, wie sie sind, aber Sie möchten möglicherweise die Anzahl der Epochen vom Standardwert 6 auf etwas wie 10 oder 12 erhöhen, um bessere Ergebnisse zu erzielen. Stellen Sie sicher, dass Sie die Version 2.0.2 verwenden, da sie die beste ist.

Klicken Sie auf die Schaltfläche "Training starten", und das Training beginnt. Sobald es abgeschlossen ist, klicken Sie auf die Schaltfläche "Modell optimieren", um die Enddateien kleiner und leichter zu verwenden.

Gehen Sie schließlich zum dritten Reiter mit der Bezeichnung "Inferenz". Klicken Sie auf die Schaltfläche "Parameter für TTS aus Ausgabeordner laden", dann auf die Schaltfläche "Modell laden". Nun können Sie Ihren Text eingeben und auf "Inferenz" klicken, um die Audio zu generieren.

Die resultierende Audio wird deutlich besser sein als die anfängliche 10-Sekunden-Klonmethode, da das Modell an Ihre Stimme angepasst wurde. Sie werden Dinge wie Pausen, "Ähm"-Laute und andere Eigenheiten bemerken, die in der Referenzaudio vorhanden waren.

Mit diesem feinabgestimmten Modell können Sie es nun so oft wie Sie möchten verwenden, da es keine Einschränkungen gibt. Diese mittlere Text-to-Speech-Methode ist ein großartiger Kompromiss zwischen Aufwand und Qualität.

Die ultimative Text-to-Speech-Kombination: XTTS + RVC

Nun, da wir alle erforderliche Software installiert haben, tauchen wir in die ultimative Text-to-Speech-Kombination mit XTTS und RVC ein.

Methode A: Einfache Umwandlung

Geben Sie im XTTS-Web-UI Ihren Text und die Referenzaudiodatei ein.
Klicken Sie auf "Generieren", um die erste Text-to-Speech-Audio zu erhalten.
Laden Sie die generierte Datei herunter.
Starten Sie RVC und wählen Sie das Referenzstimmmodell aus.
Fügen Sie den Pfad der heruntergeladenen Datei ein und klicken Sie auf "Konvertieren".
Die Endaudio wird nun die Stimme des Referenzmodells haben.

Methode B: Automatische XTTS + RVC

Gehen Sie zum XTTS-RVC-UI-Ordner und geben Sie das RVC-Stimmmodell (die .pth- und Index-Dateien) ein.
Legen Sie im "Stimmen"-Ordner die Referenzstimmprobe (den 10-Sekunden-Audioausschnitt) ab.
Starten Sie die .bat-Datei und öffnen Sie die lokale URL in Ihrem Browser.
Wählen Sie die Sprache, das RVC-Modell und die Stimmprobe aus.
Geben Sie Ihren Text ein und klicken Sie auf "Absenden".
Die Endaudio wird automatisch generiert, indem XTTS und RVC kombiniert werden.

Methode C: Uber-Text-to-Speech

Gehen Sie zum XTTS-Feinabstimmungs-Web-UI-Ordner und suchen Sie die Dateien des feinabgestimmten XTTS-Modells.
Schneiden Sie diese Dateien aus und fügen Sie sie in den "Modelle"-Ordner des XTTS-Web-UI ein.
Starten Sie das XTTS-Web-UI und wählen Sie das benutzerdefinierte XTTS-Modell aus.
Geben Sie Ihren Text und die Referenzaudio ein, dann klicken Sie auf "Generieren".
Laden Sie die generierte Datei herunter und öffnen Sie sie in RVC.
Wählen Sie das Referenzstimmmodell aus und klicken Sie auf "Konvertieren".
Die Endaudio wird die ultimative Text-to-Speech-Kombination sein, unter Verwendung des benutzerdefinierten XTTS-Modells und RVC.

Bedenken Sie, dass die Uber-Methode die höchste Qualität und Authentizität bietet, aber auch mehr Aufwand erfordert. Wählen Sie die Methode, die am besten zu Ihren Bedürfnissen und Vorlieben passt.

Schlussfolgerung

In dieser umfassenden Anleitung haben wir verschiedene Methoden zur Erstellung hochwertiger, angepasster Text-to-Speech-Stimmen (TTS) auf Ihrem lokalen Computer untersucht. Von der super-faulen 10-Sekunden-Stimmklonierung bis hin zur ultimativen Uber-Stufe der TTS haben wir eine Reihe von Techniken abgedeckt, die Ihren spezifischen Bedürfnissen entsprechen.

Beginnend mit der einfachsten Methode haben wir gezeigt, wie Sie die XTTS-Web-Benutzeroberfläche verwenden, um TTS-Audio aus nur 10 Sekunden Referenzaudio zu generieren. Dieser schnelle und einfache Ansatz ermöglicht es Ihnen, personalisierte Stimmen mit minimalem Aufwand zu erstellen.

Anschließend haben wir uns in die mittlere TTS-Methode vertieft, bei der wir ein XTTS-Modell mit nur 2 Minuten Audio feinabgestimmt haben. Dieser Prozess ermöglichte es uns, eine authentischere und ausdrucksvollere TTS-Stimme zu erstellen, die auf die einzigartigen Merkmale des Sprechers abgestimmt ist.

Schließlich haben wir die ultimative Uber-TTS-Methode enthüllt, die die Leistungsfähigkeit von XTTS und RVC (Real-Voice Cloning) kombiniert, um das höchste Maß an Qualität und Authentizität zu erreichen. Indem wir unser benutzerdefiniertes XTTS-Modell und die fortgeschrittenen Stimmumwandlungsfähigkeiten von RVC nutzten, konnten wir TTS-Audio generieren, die der Originalstimme sehr nahekommt.

Durchgehend haben wir Schritt-für-Schritt-Anleitungen und praktische Tipps gegeben, um einen reibungslosen Installations- und Implementierungsprozess zu gewährleisten. Egal ob Sie Anfänger oder erfahrener Nutzer sind, Sie haben nun das Wissen und die Werkzeuge, um Ihre eigenen hochwertigen TTS-Stimmen auf Ihrem lokalen Computer zu erstellen, ohne teure Drittanbieter-Software benötigen zu müssen.

Denken Sie daran, dass die in der Anleitung erwähnten Ressourcen und Grafiken kostenlos auf meiner Patreon-Seite verfügbar sind, also schauen Sie in der Beschreibung nach den Links. Und wenn Sie Fragen haben oder weitere Unterstützung benötigen, zögern Sie nicht, mich über die Patreon-Plattform zu kontaktieren, wo ich meinen Unterstützern Prioritätsunterstützung biete.

Viel Spaß bei Ihren Text-to-Speech-Abenteuern und genießen Sie die Kraft individualisierter, lokaler TTS-Stimmen!

FAQ

Was ist der einfachste Weg, lokal Text-to-Speech-KI-Stimmen zu erstellen?

Wie kann ich die Qualität der Text-to-Speech-Stimmen verbessern?

Was ist die ultimative Methode zum Erstellen der besten lokalen Text-to-Speech-KI-Stimmen?

Wie kann ich mein verfeinertes XTTS-Modell einfach verwenden?

Gibt es eine Möglichkeit, den Prozess der Generierung und Umwandlung der Text-to-Speech-Audio zu automatisieren?

Create Your AI Girlfriend

Create and chat with your dream AI Girlfriend