免費在本地一鍵複製任何 AI 語音!創建自訂語音

使用 AI 在 1 點擊內複製任何本地語音!輕鬆從音訊片段創建自定義語音。探索如何訪問數千個預訓練的語音模型,並將它們無縫集成到您的項目中。

2025年2月20日

party-gif

發現克隆任何 AI 語音的力量,只需在您的電腦上幾個音頻片段。解鎖無限的可能性,從摩根·弗里曼為您朗讀睡前故事到戈登·拉姆齊在您烹飪晚餐時大罵侮辱。這篇博客文章將向您展示如何使用令人驚嘆的開源程序 RVC 創建自己的語音模型,並將任何音頻轉換為您選擇的聲音,全部免費並在您的機器上本地進行。

輕鬆免費複製任何 AI 語音使用 RVC

安裝 RVC 有兩種方式:

  1. 一鍵安裝程式: 如果您是 Patreon 支持者,可以下載一鍵安裝程式,只需雙擊檔案即可安裝 RVC。

  2. 手動安裝:

    • 確保您已安裝 Python 和 Git for Windows。
    • 在電腦上建立一個新資料夾,並在該資料夾中開啟命令提示字元 (CMD)。
    • 在 CMD 中執行 git clone <repository-link> 以複製 RVC 儲存庫。
    • 執行提供的命令以確定您的 PyTorch 版本。
    • 建立一個新的 Python 環境並啟動它。
    • 安裝所需的相依性。
    • 下載必要的模型和檔案。
    • 啟動 go_webui.bat 檔案以啟動 RVC 網頁 UI。

複製聲音:

  1. 在「訓練」標籤中,輸入新聲音複製的名稱並設定目標採樣率。
  2. 提供訓練音訊檔案的路徑(至少 10 分鐘的高品質音訊)。
  3. 配置訓練設定,如訓練週期數、批次大小和儲存頻率。
  4. 點擊「一鍵訓練」開始訓練過程。

訓練完成後,您可以在「模型推論」標籤中使用複製的聲音。調整轉調值以匹配源音訊的音高,選擇要轉換的音訊檔案路徑,然後點擊「轉換」以生成使用複製聲音的新音訊。

另外,您也可以從社區網站 voicemodels.com 下載預訓練的聲音模型,並直接使用它們,無需進行訓練。

要使用複製聲音進行文字轉語音,可以利用 Cooked TTS 擴充功能在文字生成 Web UI 中進行。先使用 Cooked TTS 生成初始音訊,然後使用 RVC 將其轉換為複製的聲音。

請記住,雖然 RVC 允許您複製任何聲音,但重要的是要負責任和合乎道德地使用這項技術。

手動安裝 RVC 供進階使用者

要手動安裝 RVC,請按照以下步驟操作:

  1. 確保您的電腦上已安裝 Python 和 Git for Windows。
  2. 在電腦上建立一個新資料夾,並命名為您想要的名稱。
  3. 在資料夾路徑中輸入 CMD 並按 Enter 鍵開啟命令提示字元 (CMD)。
  4. 在 GitHub 頁面上,點擊「Code」,然後點擊複製圖標以複製儲存庫鏈接。
  5. 在命令提示字元中,輸入 git clone 並貼上複製的鏈接,然後按 Enter 鍵將儲存庫複製到您的電腦上。
  6. 輸入 cd 後跟著資料夾名稱並按 Enter 鍵,導航到已複製的資料夾。
  7. 複製並貼上提供的命令以確定您的 PyTorch 版本,並記下 "CU" 版本,您稍後會需要它。
  8. 輸入 python -m venv env 並按 Enter 鍵建立一個新的 Python 環境。
  9. 使用描述中提供的命令啟動環境,但請確保將 "CU118" 替換為您之前記下的正確 "CU" 版本。
  10. 運行提供的命令安裝所需的依賴項。
  11. 如果遇到與 NumPy 模組相關的錯誤,請先使用 pip uninstall numpy 卸載它,然後使用版本 1.23.5 重新安裝。
  12. 運行 python tools/download_models.py 命令下載模型。
  13. 從提供的鏈接下載 ffmpeg.exeff.exe 檔案,並將它們放在主資料夾中。
  14. 從提供的鏈接下載四個啟動檔案,並將它們放在主資料夾中,覆蓋任何現有檔案。
  15. 啟動 go_webui.bat 檔案以啟動 RVC 網頁 UI。

現在您已準備好開始使用 RVC 複製聲音了!

使用 RVC 訓練您自己的語音模型

要使用 RVC 訓練自己的聲音模型,請按照以下步驟操作:

  1. 準備您的聲音數據:

    • 您需要至少 10 分鐘的高品質、乾淨的您自己的聲音錄音。
    • 如果您要複製別人的聲音,請下載他們的採訪視頻,並使用 Audacity 等工具分離出他們的聲音。
  2. 安裝 RVC:

    • 如果您是 Patreon 支持者,請使用一鍵安裝程式,否則請按照手動安裝步驟操作。
    • 確保您已安裝正確的 CUDA 版本。
  3. 設置訓練:

    • 在 RVC 網頁 UI 中,進入「訓練」標籤。
    • 輸入新聲音複製的名稱並設定目標採樣率。
    • 指定您的聲音數據資料夾路徑。
    • 選擇適當的訓練設定,如訓練週期數。
  4. 開始訓練:

    • 點擊「一鍵訓練」開始聲音模型訓練。
    • 根據數據量和硬件,訓練過程可能需要 1-1.5 小時。
  5. 使用訓練好的模型:

    • 訓練完成後,您可以在「資產」和「日誌」資料夾中找到訓練好的模型檔案。
    • 在「模型推論」標籤中,選擇您的訓練模型並調整轉調值以匹配源音訊。
    • 通過提供音訊檔案路徑並點擊「轉換」,將任何音訊檔案轉換為您的複製聲音。
  6. (可選) 使用預訓練的聲音模型:

    • 訪問 voicemodels.com 以下載社區創建的預訓練聲音模型。
    • 解壓縮模型檔案並將它們放在適當的資料夾中,然後在 RVC 網頁 UI 中使用它們。

請記住,最終複製聲音的品質取決於源音訊數據的品質和持續時間。嘗試不同的設定和音訊源以獲得最佳結果。

使用 RVC 的預訓練語音模型

RVC 社區擁有大量預訓練的聲音模型,您可以直接下載並使用,無需進行自己的訓練。要找到這些模型,您可以訪問 voicemodels.com 網站。

在這個網站上,您可以搜索任何您想要的聲音模型,例如特定的角色或名人。例如,如果您想使用海綿寶寶的聲音模型,您可以簡單地點擊鏈接下載預訓練的壓縮檔。

下載完壓縮檔後,您需要解壓縮它包含的兩個檔案:一個 .pth 檔案和一個索引檔案。.pth 檔案需要放在 assets/wavs 資料夾中,索引檔案需要放在 logs 資料夾中。

之後,您可以返回 RVC 網頁 UI,點擊「刷新聲音列表」按鈕,然後選擇您剛剛添加的聲音模型。您可以根據需要調整八度音階,然後點擊「轉換」將聲音模型應用到您的音訊上。

這個過程允許您使用預訓練的聲音模型,而無需經歷整個訓練過程,這使得複製聲音變得更快捷和更容易。

將 RVC 與文字轉語音結合以實現無縫轉換

要將 RVC 與文字轉語音結合以實現無縫轉換,請按照以下步驟操作:

  1. 在文字生成 WebUI 中使用 Cooked TTS 擴充功能從所需的文字生成初始音訊檔案。
  2. 在 Cooked TTS 擴充功能中,確保聊天中的第一條消息是您想要轉換為音訊的文字。
  3. 音訊檔案生成後,下載它並將其用作 RVC 轉換過程的輸入。
  4. 在 RVC 網頁 UI 中,選擇您想要使用的聲音模型。
  5. 根據需要調整音高/轉調值以匹配目標聲音。
  6. 點擊「轉換」以生成使用複製聲音的最終音訊檔案。

這種方法允許您利用文字生成 WebUI 的文字轉語音功能來創建初始音訊,然後使用 RVC 將其轉換為所需的複製聲音。這提供了一個無縫的工作流程,可以從文字輸入創建帶有複製聲音的音訊。

結論

在這個全面的指南中,我們探索了 RVC (Real Voice Cloning) 的強大功能,這是一個開源程式,允許您複製任何聲音並將音訊檔案轉換為該新聲音。我們介紹了安裝 RVC 的逐步過程,包括一鍵安裝程式和手動安裝方法。

您已經學會如何準備高品質的音訊樣本、訓練自己的聲音模型,甚至利用 RVC 社區的預訓練模型。複製聲音的能力為您打開了一個全新的世界,從讓摩根·弗里曼為您講睡前故事,到讓戈登·拉姆齊在您烹飪時大罵侮辱。

此外,我們還討論了如何將 RVC 與文字轉語音工具整合,使您能夠在不需要大量音訊錄製的情況下,使用複製的聲音生成音訊。這種無縫的整合允許更多創造性的應用,例如在虛擬環境中進行角色扮演。

請記住,雖然 RVC 的功能令人印象深刻,但重要的是要負責任和合乎道德地使用這項技術。尊重個人的隱私和權利,避免任何惡意或欺騙性的聲音複製用途。

擁抱 RVC 的力量,讓您的創造力飛翔。可能性是無限的,語音技術的未來就在您手中。

常問問題