ローカルのテキスト・トゥ・スピーチAIの力を解き放て:無料で驚くべき音声を作成する

ローカルのテキスト・トゥ・スピーチAIの力を解き放て:無料で素晴らしい音声を作成する。ローカルコンピューター上で高品質でカスタマイズ可能なテキスト・トゥ・スピーチ音声を生成する4つの方法を発見する。クイッククローンから微調整モデルまで、プロジェクトに最適なAI音声を作成する。

2025年2月21日

party-gif

このステップバイステップガイドを使って、無料でカスタムのテキスト読み上げ音声を作成できます。簡単なクローニング手法と微調整済みモデルを使って、高品質なAI音声を生成する方法を発見しましょう。高額な第三者サービスに頼る必要はありません。

テキストから音声への最も簡単な方法: 10秒の音声でクイッククローニング

10秒の音声を使ってクイッククローニング方法を使うには:

  1. xtts-webuiフォルダに移動し、start-xtts-webui.batファイルを起動します。これにより、必要なファイルがダウンロードされ、Webユーザーインターフェイスが起動します。

  2. Webユーザーインターフェイスで、音声で読み上げたいテキストを入力します。文字数制限はありません。

  3. ドロップダウンから希望の言語を選択します。

  4. 5-10秒の音声クリップをアップロードします。これがボイスクローンに使用されます。

  5. 「生成」をクリックすると、数秒で生成された音声ファイルが使用できるようになります。

これがローカルコンピューターでテキスト読み上げを作成する最も簡単で楽な方法です。完璧ではありませんが、10秒の音声のみを使って迅速なソリューションを提供します。

テキストから音声への中級的な方法: 独自のXTTSモデルのファインチューニング

さて、2分の音声しか必要としない、自分のXTTSモデルを一から訓練する中程度のテキスト読み上げ方法に移りましょう。通常の良い結果には10-20分の音声が必要ですが、この方法ではそれよりはるかに少ない量で済みます。

最初に、XTTSファインチューンWebUIフォルダに移動し、start.batファイルを起動します。これにより、ブラウザで開くことができるローカルURLが表示されます。

この方法では、2分の音声ファイルが必要です。私のように面倒くさがりな人は、Audacityで30秒の音声クリップを繰り返して2分のファイルを作成することができます。

音声ファイルができたら、Webユーザーインターフェイスにアップロードします。言語(この場合は英語)を正しく選択していることを確認してください。次に、「ステップ1:データセットの作成」ボタンをクリックします。音声の長さによっては、フォーマット処理に1分未満かかる場合があります。

次に2番目のタブに移動します。設定はそのままでも構いませんが、より良い結果を得るために、デフォルトの6エポックから10または12エポックに増やすことをお勧めします。バージョン2.0.2を使用していることを確認してください。これが最良のバージョンです。

「トレーニングの実行」ボタンをクリックすると、トレーニングが始まります。完了したら、「モデルの最適化」ボタンをクリックして、最終ファイルを小さくて使いやすくします。

最後に、3番目のタブ「推論」に移動します。「出力フォルダからTTSのパラメータをロード」ボタンと「モデルをロード」ボタンをクリックします。これで、テキストを入力して「推論」をクリックすると、音声が生成されます。

このファインチューンモデルを使って生成された音声は、初期の10秒クローニング方法よりもはるかに良質です。ポーズ、「uh」サウンド、その他の特徴が、参照音声に存在していたものと同様に再現されています。

このファインチューンモデルを使えば、制限なく自由に使うことができます。この中程度のテキスト読み上げ方法は、労力と品質のバランスが取れた素晴らしい選択肢です。

テキストから音声への究極の組み合わせ: XTTS + RVC

必要なソフトウェアをすべてインストールしたので、XTTSとRVCを使ったテキスト読み上げの究極の組み合わせに取り組みましょう。

方法A: 単純な変換

  1. XTTSのWebユーザーインターフェイス内で、テキストと参照音声ファイルを入力します。
  2. 「生成」をクリックして、初期のテキスト読み上げ音声を取得します。
  3. 生成されたファイルをダウンロードします。
  4. RVCを起動し、参照ボイスモデルを選択します。
  5. ダウンロードしたファイルのパスを貼り付け、「変換」をクリックします。
  6. 最終的な音声には、参照モデルの声が使用されます。

方法B: 自動XTTS + RVC

  1. XTTSのRVCユーザーインターフェイスフォルダに移動し、RVCボイスモデル(.pthindexファイル)を入力します。
  2. 「voices」フォルダに、参照ボイスサンプル(10秒の音声クリップ)を入力します。
  3. .batファイルを起動し、ローカルURLをブラウザで開きます。
  4. 言語、RVCモデル、ボイスサンプルを選択します。
  5. テキストを入力し、「送信」をクリックします。
  6. 最終的な音声が自動的に生成され、XTTSとRVCが組み合わされます。

方法C: 究極のテキスト読み上げ

  1. XTTSファインチューンWebUIフォルダに移動し、ファインチューンしたXTTSモデルファイルを見つけます。
  2. これらのファイルを切り取り、XTTSWebUIの「models」フォルダに貼り付けます。
  3. XTTSWebUIを起動し、カスタムXTTSモデルを選択します。
  4. テキストと参照音声を入力し、「生成」をクリックします。
  5. 生成されたファイルをダウンロードし、RVCで開きます。
  6. 参照ボイスモデルを選択し、「変換」をクリックします。
  7. 最終的な音声は、カスタムXTTSモデルとRVCを使った究極のテキスト読み上げの組み合わせになります。

覚えておいてください、Uber方式は最高の品質と本物らしさを提供しますが、より多くの労力が必要です。あなたのニーズと好みに合わせて、最適な方法を選択してください。

結論

この包括的なガイドでは、ローカルコンピューター上で高品質でカスタマイズされたテキスト読み上げ(TTS)ボイスを作成する様々な方法を探りました。10秒の声クローニングから究極のUber級TTSまで、あなたの特定のニーズに合わせて選択できる一連の手法を紹介しました。

最も簡単な方法から始め、XTTS Webユーザーインターフェイスを使って、わずか10秒の参照音声からTTS音声を生成する方法を示しました。この迅速で簡単なアプローチにより、最小限の労力で個性的な声を作成することができます。

その次に、2分の音声を使ってXTTSモデルをファインチューニングする中程度のTTS方法に取り組みました。この過程により、話者の独特の特徴に合わせて調整された、より本物らしく表現力のあるTTSボイスを作成することができました。

最後に、XTTSとRVC(Real-Voice Cloning)を組み合わせた究極のUber TTS方式を明らかにしました。カスタムトレーニングしたXTTSモデルと、RVCの高度な音声変換機能を活用することで、オリジナルの話者の声に非常に近いTTS音声を生成することができました。

ガイド全体を通して、シームレスなインストールと実装プロセスを確保するための手順とプラクティカルなヒントを提供しました。初心者でも経験豊富なユーザーでも、ローカルコンピューター上で自分の高品質TTS音声を作成する知識とツールを手に入れることができます。

ガイドで言及したリソースとグラフィックスは、私のPatreonで無料で入手できますので、説明にあるリンクをチェックしてください。質問がある場合や、さらなるサポートが必要な場合は、Patreonプラットフォームを通じて私に連絡してください。私のPatronには優先サポートを提供しています。

テキスト読み上げの冒険を楽しんでください。そして、カスタマイズされたローカルTTS音声の力を存分に活用してください!

FAQ