1クリックで無料でローカルにAIボイスをクローンしよう!カスタムボイスを作成する

1クリックで任意の音声をローカルでクローンできるAIを使用しましょう!オーディオクリップから簡単にカスタムボイスを作成できます。数千の事前トレーニングされたボイスモデルにアクセスし、プロジェクトに簡単に統合する方法を発見してください。

2025年2月19日

party-gif

コンピューター上の数クリップのオーディオで、任意のAI音声をクローニングする力を発見してください。モーガン・フリーマンがあなたに寝付きの物語を読むから、ゴードン・ラムゼイがあなたが夕食を調理しているときに侮辱を叫ぶまで、無限の可能性を解き放ちます。このブログ投稿では、無料でローカルにマシン上で、自分の音声モデルを作成し、任意のオーディオを好きな声に変換するために、素晴らしいオープンソースプログラムRVCを使う方法を示します。

無料でRVCを使ってAIボイスを簡単にクローンする

RVCをインストールするには2つのオプションがあります:

  1. ワンクリックインストーラー: Patreonサポーターの場合、ワンクリックインストーラーをダウンロードして実行するだけでRVCをインストールできます。

  2. 手動インストール:

    • Pythonとギットfor Windowsがインストールされていることを確認してください。
    • コンピューターに新しいフォルダーを作成し、そのフォルダーでコマンドプロンプト(CMD)を開きます。
    • CMDでgit clone <リポジトリリンク>を実行してRVCリポジトリをクローンします。
    • 提供されたコマンドを実行してPyTorchのバージョンを確認します。
    • 新しいPythonの環境を作成して有効化します。
    • 必要なライブラリをインストールします。
    • 必要なモデルとファイルをダウンロードします。
    • go_webui.batファイルを実行してRVCのWebUIを起動します。

ボイスをクローンするには:

  1. 「Train」タブで新しいボイスクローンの名前を入力し、ターゲットのサンプルレートを設定します。
  2. 学習用のオーディオファイルのパス(高品質のオーディオが10分以上)を指定します。
  3. 学習エポック数、バッチサイズ、保存頻度などの学習設定を構成します。
  4. 「One-Click Training」をクリックして学習プロセスを開始します。

学習が完了したら、「Model Inference」タブでクローンしたボイスを使用できます。ソースオーディオのピッチに合わせてトランスポーズ値を調整し、変換したいオーディオファイルのパスを選択して「Convert」をクリックすると、クローンしたボイスで新しいオーディオが生成されます。

別の方法として、voicemodels.comなどのコミュニティサイトから事前学習済みのボイスモデルをダウンロードし、学習なしで直接使用することもできます。

クローンしたボイスでテキスト読み上げを行うには、Text Generation WebUIのCooked TTS拡張機能を活用できます。Cooked TTSで初期オーディオを生成し、それをRVCで変換することで、クローンしたボイスでの音声出力が可能です。

RVCを使ってどんなボイスでも複製できますが、この技術を責任を持って、倫理的に使用することが重要です。

上級ユーザー向けのRVCの手動インストール

RVCを手動でインストールするには、以下の手順に従ってください:

  1. コンピューターにPythonとGit for Windowsがインストールされていることを確認してください。
  2. コンピューターに新しいフォルダーを作成し、任意の名前をつけてください。
  3. フォルダーのパスにCMDと入力してEnterキーを押し、コマンドプロンプトを開きます。
  4. GitHubページの「Code」をクリックし、コピーアイコンをクリックしてリポジトリリンクをコピーします。
  5. コマンドプロンプトでgit cloneと入力し、コピーしたリンクを貼り付けてEnterキーを押してリポジトリをクローンします。
  6. cdと入力してフォルダー名を追加し、Enterキーを押してクローンしたフォルダーに移動します。
  7. 説明に記載されているコマンドをコピー&ペーストして実行し、PyTorchのバージョンを確認します。「CU」バージョンを控えておいてください。
  8. python -m venv envと入力してEnterキーを押し、新しいPython環境を作成します。
  9. 説明にある手順に従って環境を有効化しますが、「CU118」の部分は先ほど確認した「CU」バージョンに置き換えてください。
  10. 提供されたコマンドを実行して必要なライブラリをインストールします。
  11. NumPyモジュールに関するエラーが発生した場合は、pip uninstall numpyでアンインストールし、その後pip install numpy==1.23.5でバージョン1.23.5をインストールしてください。
  12. python tools/download_models.pyを実行してモデルをダウンロードします。
  13. 提供されたリンクからffmpeg.exeff.exeファイルをダウンロードし、メインフォルダーに配置します。
  14. 提供されたリンクから4つの起動ファイルをダウンロードし、メインフォルダーに配置して既存のファイルを上書きします。
  15. go_webui.batファイルを実行してRVCのWebUIを起動します。

これでRVCを使ってボイスのクローンを始められます!

RVCを使ってあなた自身のボイスモデルをトレーニングする

RVCを使ってオリジナルのボイスモデルを学習するには、以下の手順に従ってください:

  1. ボイスデータの準備:

    • 高品質で清音なオーディオ録音が10分以上必要です。
    • 他人のボイスをクローンする場合は、インタビュー動画からAudacityなどのツールを使ってそのボイスを抽出してください。
  2. RVCのインストール:

    • Patreonサポーターの場合はワンクリックインストーラーを、それ以外の場合は手動インストールの手順に従ってください。
    • 正しいCUDAバージョンがインストールされていることを確認してください。
  3. 学習の設定:

    • RVCのWebUIの「Train」タブに移動します。
    • 新しいボイスクローンの名前を入力し、ターゲットのサンプルレートを設定します。
    • ボイスデータのフォルダーパスを指定します。
    • 学習エポック数などの適切な学習設定を選択します。
  4. 学習の開始:

    • 「One Click Training」をクリックして学習プロセスを開始します。
    • 学習には1~1.5時間ほどかかる可能性があります(データ量とハードウェアによって異なります)。
  5. 学習済みモデルの使用:

    • 学習が完了したら、「Assets」と「Logs」フォルダーに学習済みモデルファイルが保存されます。
    • 「Model Inference」タブで学習済みモデルを選択し、ソースオーディオのピッチに合わせてトランスポーズ値を調整します。
    • オーディオファイルのパスを指定して「Convert」をクリックすると、クローンしたボイスで変換されます。
  6. (オプション) 事前学習済みボイスモデルの使用:

    • voicemodels.comからコミュニティ作成の事前学習済みボイスモデルをダウンロードできます。
    • ダウンロードしたモデルファイルを適切なフォルダーに配置し、RVCのWebUIで使用できます。

クローンしたボイスの品質は、ソースオーディオのデータ品質と量に大きく依存します。さまざまな設定とオーディオソースを試して、最良の結果を得てください。

RVCを使ってプリトレーニングされたボイスモデルを使う

RVCコミュニティには、事前学習済みのボイスモデルが大量に用意されており、それらを直接ダウンロードして使用できます。これらのモデルは、voicemodels.comのウェブサイトで探すことができます。

このウェブサイトでは、特定のキャラクターやセレブリティなど、任意のボイスモデルを検索できます。例えば、SpongeBobのボイスモデルが欲しい場合は、関連するリンクをクリックしてダウンロードできます。

ダウンロードしたアーカイブには、.pthファイルとインデックスファイルの2つが含まれています。.pthファイルはassets/wavsフォルダーに、インデックスファイルはlogsフォルダーに配置する必要があります。

その後、RVCのWebUIに戻り、「Refresh voice list」ボタンをクリックして、追加したボイスモデルを選択できます。必要に応じてオクターブレベルを調整し、「Convert」をクリックすると、ボイスモデルを適用したオーディオが生成されます。

この方法を使えば、自分で学習する必要なく、事前学習済みのボイスモデルを簡単に使用できるようになります。

RVCをテキスト読み上げと組み合わせてシームレスな変換を行う

RVCとテキスト読み上げを組み合わせて使うには、以下の手順に従ってください:

  1. Text Generation WebUIのCooked TTS拡張機能を使って、希望のテキストから初期オーディオファイルを生成します。
  2. Cooked TTS拡張機能では、最初のメッセージにオーディオ化したいテキストを入力します。
  3. オーディオファイルが生成されたら、それをダウンロードしてRVCの変換プロセスの入力として使用します。
  4. RVCのWebUIで、使用したいボイスモデルを選択します。
  5. 必要に応じてピッチ/トランスポーズ値を調整して、ターゲットのボイスに合わせます。
  6. 「Convert」をクリックすると、クローンしたボイスでの最終的なオーディオファイルが生成されます。

このアプローチでは、Text Generation WebUIのテキスト読み上げ機能を使って初期オーディオを作成し、それをRVCで目的のクローンボイスに変換できます。これにより、テキストからクローンボイスのオーディオを生成する際の一貫したワークフローが実現できます。

まとめ

この包括的なガイドでは、オープンソースのプログラムであるRVC(Real Voice Cloning)の強力な機能について説明しました。RVCを使えば、任意のボイスをクローンし、オーディオファイルをそのボイスに変換できます。

RVCのインストール方法、ワンクリックインストーラーと手動インストールの両方の手順を詳しく解説しました。

また、高品質のオーディオサンプルの準備、独自のボイスモデルの学習、コミュニティから提供されている事前学習済みモデルの活用方法についても説明しました。ボイスのクローン化は、モーガン・フリーマンに寝床の物語を読んでもらったり、ゴードン・ラムゼイに夕食の調理中に罵倒されたりするなど、さまざまな可能性を秘めています。

さらに、RVCとテキスト読み上げツールを統合する方法についても紹介しました。これにより、大量のオーディオ録音をせずに、クローンしたボイスでの音声出力が可能になります。このシームレスな統合により、バーチャル環境でのロールプレイングなど、さらに創造的な応用が期待できます。

RVCの機能は非常に優れていますが、この技術を責任を持って、倫理的に使用することが重要です。個人のプライバシーと権利を尊重し、ボイスクローニングの悪用を避けましょう。

RVCの力を最大限に活用し、創造性を発揮してください。可能性は無限大で、音声技術の未来はあなたの手の中にあります。

FAQ