Klonen Sie jede KI-Stimme kostenlos lokal in 1 Klick! Erstellen Sie benutzerdefinierte Stimmen

Verwenden Sie KI, um jede Stimme lokal in 1 Klick zu klonen! Erstellen Sie ganz einfach benutzerdefinierte Stimmen aus Audioaufnahmen. Erfahren Sie, wie Sie auf Tausende von vorgefertigten Stimmmodellen zugreifen und sie nahtlos in Ihre Projekte integrieren können.

24. Februar 2025

party-gif

Entdecken Sie die Kraft des Klonens jeder KI-Stimme mit nur wenigen Audioaufnahmen auf Ihrem Computer. Erschließen Sie endlose Möglichkeiten, von Morgan Freeman, der Ihnen eine Gute-Nacht-Geschichte vorliest, bis hin zu Gordon Ramsay, der Ihnen beim Abendessen Beleidigungen entgegenschleudert. Dieser Blogbeitrag zeigt Ihnen, wie Sie das erstaunliche Open-Source-Programm RVC verwenden, um Ihre eigenen Stimmmodelle zu erstellen und jedes Audio in die Stimme Ihrer Wahl umzuwandeln, und das alles kostenlos und lokal auf Ihrem Gerät.

Klonen Sie mühelos jede KI-Stimme kostenlos mit RVC

Um RVC zu installieren, haben Sie zwei Möglichkeiten:

  1. Einklick-Installer: Wenn Sie Patreon-Unterstützer sind, können Sie den Einklick-Installer herunterladen und einfach die Datei doppelklicken, um RVC zu installieren.

  2. Manuelle Installation:

    • Stellen Sie sicher, dass Sie Python und Git für Windows installiert haben.
    • Erstellen Sie einen neuen Ordner auf Ihrem Computer und öffnen Sie die Eingabeaufforderung (CMD) in diesem Ordner.
    • Klonen Sie das RVC-Repository, indem Sie im CMD git clone <repository-link> ausführen.
    • Ermitteln Sie Ihre PyTorch-Version, indem Sie den bereitgestellten Befehl ausführen.
    • Erstellen und aktivieren Sie eine neue Python-Umgebung.
    • Installieren Sie die erforderlichen Abhängigkeiten.
    • Laden Sie die notwendigen Modelle und Dateien herunter.
    • Starten Sie die go_webui.bat-Datei, um die RVC-Web-Benutzeroberfläche zu starten.

Um eine Stimme zu klonen:

  1. Geben Sie im Reiter "Train" einen Namen für Ihre neue Stimmkopie ein und stellen Sie die Zielstichprobenrate ein.
  2. Geben Sie den Pfad zu Ihren Trainingsdateien an (mindestens 10 Minuten hochwertige Audiodaten).
  3. Konfigurieren Sie die Trainingseinstellungen wie die Anzahl der Trainingsepochan, die Batchgröße und die Speicherfrequenz.
  4. Klicken Sie auf "One-Click Training", um den Trainingsprozess zu starten.

Sobald das Training abgeschlossen ist, können Sie die geklonte Stimme im Reiter "Model Inference" verwenden. Passen Sie den Transpositionswert an, um die Tonhöhe der Quellaudio anzupassen, wählen Sie den Pfad zur Audiodatei, die Sie konvertieren möchten, und klicken Sie auf "Convert", um die neue Audio mit der geklonten Stimme zu generieren.

Alternativ können Sie auch vorgefertigte Stimmmodelle aus der Community auf Websites wie voicemodels.com herunterladen und direkt ohne Training verwenden.

Um Text-to-Speech mit der geklonten Stimme zu nutzen, können Sie die Cooked TTS-Erweiterung in der Text Generation Web-Benutzeroberfläche verwenden. Generieren Sie zunächst die Audiodatei mit Cooked TTS und konvertieren Sie sie dann in die geklonte Stimme mit RVC.

Bedenken Sie, dass RVC es Ihnen ermöglicht, jede Stimme zu klonen. Es ist jedoch wichtig, diese Technologie verantwortungsvoll und ethisch zu nutzen.

Manuelle Installation von RVC für fortgeschrittene Benutzer

Um RVC manuell zu installieren, folgen Sie diesen Schritten:

  1. Stellen Sie sicher, dass Sie Python und Git für Windows auf Ihrem Computer installiert haben.
  2. Erstellen Sie einen neuen Ordner auf Ihrem Computer und benennen Sie ihn nach Ihren Wünschen.
  3. Öffnen Sie die Eingabeaufforderung (CMD), indem Sie CMD im Ordnerpfad eingeben und Enter drücken.
  4. Klicken Sie auf der GitHub-Seite auf "Code" und dann auf das Kopier-Symbol, um den Repository-Link zu kopieren.
  5. Geben Sie in der Eingabeaufforderung git clone ein, fügen Sie den kopierten Link ein und drücken Sie Enter, um das Repository auf Ihren Computer zu klonen.
  6. Navigieren Sie zum geklonten Ordner, indem Sie cd gefolgt vom Ordnernamen eingeben und Enter drücken.
  7. Ermitteln Sie Ihre PyTorch-Version, indem Sie den bereitgestellten Befehl kopieren und einfügen und Enter drücken. Notieren Sie die "CU"-Version, da Sie sie später benötigen.
  8. Erstellen Sie eine neue Python-Umgebung, indem Sie python -m venv env eingeben und Enter drücken.
  9. Aktivieren Sie die Umgebung mit dem in der Beschreibung bereitgestellten Befehl, ersetzen Sie aber "CU118" durch die von Ihnen notierte "CU"-Version.
  10. Installieren Sie die Anforderungen, indem Sie den bereitgestellten Befehl ausführen.
  11. Wenn Sie einen Fehler in Bezug auf das NumPy-Modul erhalten, deinstallieren Sie es mit pip uninstall numpy und installieren Sie es dann mit Version 1.23.5 neu.
  12. Laden Sie die Modelle herunter, indem Sie den Befehl python tools/download_models.py ausführen.
  13. Laden Sie die ffmpeg.exe- und ff.exe-Dateien vom bereitgestellten Link herunter und platzieren Sie sie im Hauptordner.
  14. Laden Sie die vier Startdateien vom bereitgestellten Link herunter und platzieren Sie sie im Hauptordner, wobei Sie vorhandene Dateien überschreiben.
  15. Starten Sie die go_webui.bat-Datei, um die RVC-Web-Benutzeroberfläche zu starten.

Nun können Sie beginnen, Stimmen mit RVC zu klonen!

Trainieren Sie Ihr eigenes Stimmmodell mit RVC

Um Ihr eigenes Stimmmodell mit RVC zu trainieren, folgen Sie diesen Schritten:

  1. Bereiten Sie Ihre Stimmaufnahmen vor:

    • Sie benötigen mindestens 10 Minuten hochwertige, saubere Audioaufnahmen Ihrer Stimme.
    • Wenn Sie die Stimme einer anderen Person klonen möchten, laden Sie Interviewvideos von ihr herunter und isolieren Sie ihre Stimme mit einem Tool wie Audacity.
  2. Installieren Sie RVC:

    • Verwenden Sie den Einklick-Installer, wenn Sie Patreon-Unterstützer sind, oder folgen Sie den Schritten zur manuellen Installation.
    • Stellen Sie sicher, dass Sie die korrekte CUDA-Version installiert haben.
  3. Richten Sie das Training ein:

    • Gehen Sie im RVC-Web-UI zum Reiter "Train".
    • Geben Sie einen Namen für Ihre neue Stimmkopie ein und stellen Sie die Zielstichprobenrate ein.
    • Geben Sie den Pfad zu Ihrem Stimmaufnahme-Ordner an.
    • Wählen Sie die geeigneten Trainingseinstellungen wie die Anzahl der Trainingsepochan.
  4. Starten Sie das Training:

    • Klicken Sie auf "One Click Training", um den Stimmmodell-Trainingsprozess zu starten.
    • Der Trainingsprozess kann je nach Datenmenge und Hardware etwa 1-1,5 Stunden dauern.
  5. Verwenden Sie das trainierte Modell:

    • Sobald das Training abgeschlossen ist, finden Sie die trainierten Modell-Dateien in den "Assets"- und "Logs"-Ordnern.
    • Wählen Sie im Reiter "Model Inference" Ihr trainiertes Modell aus und passen Sie den Transpositionswert an, um zur Quellaudio zu passen.
    • Konvertieren Sie jede Audiodatei in Ihre geklonte Stimme, indem Sie den Audiodatei-Pfad angeben und auf "Convert" klicken.
  6. (Optional) Verwenden Sie vorgefertigte Stimmmodelle:

    • Besuchen Sie voicemodels.com, um vorgefertigte Stimmmodelle aus der Community herunterzuladen.
    • Extrahieren Sie die Modell-Dateien und platzieren Sie sie in den entsprechenden Ordnern, um sie dann im RVC-Web-UI zu verwenden.

Bedenken Sie, dass die Qualität der endgültigen geklonten Stimme von der Qualität und Dauer der Quellaudiodaten abhängt. Experimentieren Sie mit verschiedenen Einstellungen und Audioquellen, um die besten Ergebnisse zu erzielen.

Verwenden Sie vorgefertigte Stimmmodelle mit RVC

Die RVC-Community hat eine riesige Sammlung von vorgefertigten Stimmmodellen, die Sie direkt herunterladen und verwenden können, ohne Ihr eigenes Modell trainieren zu müssen. Um diese Modelle zu finden, können Sie die Website voicemodels.com besuchen.

Auf dieser Website können Sie nach jedem Stimmmodell suchen, das Sie möchten, wie zum Beispiel einem bestimmten Charakter oder einer Berühmtheit. Wenn Sie zum Beispiel ein SpongeBob-Stimmmodell verwenden möchten, können Sie einfach auf den Link klicken, um das vorgefertigte Archiv herunterzuladen.

Sobald Sie das heruntergeladene Archiv haben, müssen Sie die beiden darin enthaltenen Dateien extrahieren: eine .pth-Datei und eine Indexdatei. Die .pth-Datei muss in den assets/wavs-Ordner und die Indexdatei in den logs-Ordner kopiert werden.

Danach können Sie zur RVC-Web-Benutzeroberfläche zurückkehren, auf die Schaltfläche "Refresh voice list" klicken und dann das von Ihnen hinzugefügte Stimmmodell auswählen. Sie können dann den Oktavwert nach Bedarf anpassen und auf "Convert" klicken, um das Stimmmodell auf Ihre Audiodatei anzuwenden.

Dieses Verfahren ermöglicht es Ihnen, vorgefertigte Stimmmodelle zu verwenden, ohne den gesamten Trainingsprozess selbst durchführen zu müssen, was den Prozess deutlich schneller und einfacher macht.

Kombinieren Sie RVC mit Text-to-Speech für nahtlose Konvertierungen

Um RVC mit Text-to-Speech zu kombinieren, um nahtlose Konvertierungen zu ermöglichen, folgen Sie diesen Schritten:

  1. Verwenden Sie die Cooked TTS-Erweiterung in der Text Generation WebUI, um eine erste Audiodatei aus dem gewünschten Text zu generieren.
  2. Stellen Sie in der Cooked TTS-Erweiterung sicher, dass die erste Nachricht im Chat der Text ist, den Sie in Audio umwandeln möchten.
  3. Sobald die Audiodatei generiert wurde, laden Sie sie herunter und verwenden Sie sie als Eingabe für den RVC-Konvertierungsprozess.
  4. Wählen Sie in der RVC-Web-Benutzeroberfläche das Stimmmodell aus, das Sie für die Konvertierung verwenden möchten.
  5. Passen Sie den Tonhöhen-/Transpositionswert nach Bedarf an, um zur Zielstimme zu passen.
  6. Klicken Sie auf "Convert", um die endgültige Audiodatei mit der geklonten Stimme zu generieren.

Dieses Vorgehen ermöglicht es Ihnen, die Text-to-Speech-Funktionen der Text Generation WebUI zu nutzen, um die erste Audiodatei zu erstellen, und dann RVC zu verwenden, um diese Audiodatei in die gewünschte geklonte Stimme umzuwandeln. Dies bietet einen nahtlosen Arbeitsablauf zum Erstellen von stimmgeklonter Audio aus Texteingaben.

Schlussfolgerung

In dieser umfassenden Anleitung haben wir die leistungsfähigen Fähigkeiten von RVC (Real Voice Cloning), einem Open-Source-Programm, das es Ihnen ermöglicht, jede Stimme zu klonen und Audiodateien in diese neue Stimme umzuwandeln, erkundet. Wir haben den schrittweisen Installationsprozess von RVC sowohl über den Einklick-Installer als auch über die manuelle Installation behandelt.

Sie haben gelernt, wie Sie hochwertige Audiobeispiele vorbereiten, Ihr eigenes Stimmmodell trainieren und sogar vorgefertigte Modelle aus der RVC-Community nutzen können. Die Möglichkeit, Stimmen zu klonen, eröffnet eine Welt voller Möglichkeiten, von Morgan Freeman, der Ihnen eine Gute-Nacht-Geschichte vorliest, bis hin zu Gordon Ramsay, der Ihnen beim Kochen Beleidigungen entgegenschleudert.

Darüber hinaus haben wir besprochen, wie Sie RVC in Text-to-Speech-Tools integrieren können, um Audio mit Ihrer geklonten Stimme zu generieren, ohne umfangreiche Audioaufnahmen erstellen zu müssen. Diese nahtlose Integration ermöglicht noch mehr kreative Anwendungen, wie zum Beispiel Rollenspiele in virtuellen Umgebungen.

Bedenken Sie, dass die Fähigkeiten von RVC beeindruckend sind. Es ist jedoch wichtig, diese Technologie verantwortungsvoll und ethisch zu nutzen. Respektieren Sie die Privatsphäre und Rechte von Einzelpersonen und vermeiden Sie jeglichen böswilligen oder irreführenden Einsatz von Stimmklonen.

Umfassen Sie die Kraft von RVC und lassen Sie Ihrer Kreativität freien Lauf. Die Möglichkeiten sind endlos, und die Zukunft der Stimmtechnologie liegt in Ihren Händen.

FAQ