免費在本地一鍵複製任何 AI 語音!創建自訂語音
使用 AI 在 1 點擊內複製任何本地語音!輕鬆從音訊片段創建自定義語音。探索如何訪問數千個預訓練的語音模型,並將它們無縫集成到您的項目中。
2025年2月14日

發現克隆任何 AI 語音的力量,只需在您的電腦上幾個音頻片段。解鎖無限的可能性,從摩根·弗里曼為您朗讀睡前故事到戈登·拉姆齊在您烹飪晚餐時大罵侮辱。這篇博客文章將向您展示如何使用令人驚嘆的開源程序 RVC 創建自己的語音模型,並將任何音頻轉換為您選擇的聲音,全部免費並在您的機器上本地進行。
輕鬆免費複製任何 AI 語音使用 RVC
輕鬆免費複製任何 AI 語音使用 RVC
安裝 RVC 有兩種方式:
-
一鍵安裝程式: 如果您是 Patreon 支持者,可以下載一鍵安裝程式,只需雙擊檔案即可安裝 RVC。
-
手動安裝:
- 確保您已安裝 Python 和 Git for Windows。
- 在電腦上建立一個新資料夾,並在該資料夾中開啟命令提示字元 (CMD)。
- 在 CMD 中執行
git clone <repository-link>
以複製 RVC 儲存庫。 - 執行提供的命令以確定您的 PyTorch 版本。
- 建立一個新的 Python 環境並啟動它。
- 安裝所需的相依性。
- 下載必要的模型和檔案。
- 啟動
go_webui.bat
檔案以啟動 RVC 網頁 UI。
複製聲音:
- 在「訓練」標籤中,輸入新聲音複製的名稱並設定目標採樣率。
- 提供訓練音訊檔案的路徑(至少 10 分鐘的高品質音訊)。
- 配置訓練設定,如訓練週期數、批次大小和儲存頻率。
- 點擊「一鍵訓練」開始訓練過程。
訓練完成後,您可以在「模型推論」標籤中使用複製的聲音。調整轉調值以匹配源音訊的音高,選擇要轉換的音訊檔案路徑,然後點擊「轉換」以生成使用複製聲音的新音訊。
另外,您也可以從社區網站 voicemodels.com 下載預訓練的聲音模型,並直接使用它們,無需進行訓練。
要使用複製聲音進行文字轉語音,可以利用 Cooked TTS 擴充功能在文字生成 Web UI 中進行。先使用 Cooked TTS 生成初始音訊,然後使用 RVC 將其轉換為複製的聲音。
請記住,雖然 RVC 允許您複製任何聲音,但重要的是要負責任和合乎道德地使用這項技術。
手動安裝 RVC 供進階使用者
手動安裝 RVC 供進階使用者
要手動安裝 RVC,請按照以下步驟操作:
- 確保您的電腦上已安裝 Python 和 Git for Windows。
- 在電腦上建立一個新資料夾,並命名為您想要的名稱。
- 在資料夾路徑中輸入
CMD
並按 Enter 鍵開啟命令提示字元 (CMD)。 - 在 GitHub 頁面上,點擊「Code」,然後點擊複製圖標以複製儲存庫鏈接。
- 在命令提示字元中,輸入
git clone
並貼上複製的鏈接,然後按 Enter 鍵將儲存庫複製到您的電腦上。 - 輸入
cd
後跟著資料夾名稱並按 Enter 鍵,導航到已複製的資料夾。 - 複製並貼上提供的命令以確定您的 PyTorch 版本,並記下 "CU" 版本,您稍後會需要它。
- 輸入
python -m venv env
並按 Enter 鍵建立一個新的 Python 環境。 - 使用描述中提供的命令啟動環境,但請確保將 "CU118" 替換為您之前記下的正確 "CU" 版本。
- 運行提供的命令安裝所需的依賴項。
- 如果遇到與 NumPy 模組相關的錯誤,請先使用
pip uninstall numpy
卸載它,然後使用版本 1.23.5 重新安裝。 - 運行
python tools/download_models.py
命令下載模型。 - 從提供的鏈接下載
ffmpeg.exe
和ff.exe
檔案,並將它們放在主資料夾中。 - 從提供的鏈接下載四個啟動檔案,並將它們放在主資料夾中,覆蓋任何現有檔案。
- 啟動
go_webui.bat
檔案以啟動 RVC 網頁 UI。
現在您已準備好開始使用 RVC 複製聲音了!
使用 RVC 訓練您自己的語音模型
使用 RVC 訓練您自己的語音模型
要使用 RVC 訓練自己的聲音模型,請按照以下步驟操作:
-
準備您的聲音數據:
- 您需要至少 10 分鐘的高品質、乾淨的您自己的聲音錄音。
- 如果您要複製別人的聲音,請下載他們的採訪視頻,並使用 Audacity 等工具分離出他們的聲音。
-
安裝 RVC:
- 如果您是 Patreon 支持者,請使用一鍵安裝程式,否則請按照手動安裝步驟操作。
- 確保您已安裝正確的 CUDA 版本。
-
設置訓練:
- 在 RVC 網頁 UI 中,進入「訓練」標籤。
- 輸入新聲音複製的名稱並設定目標採樣率。
- 指定您的聲音數據資料夾路徑。
- 選擇適當的訓練設定,如訓練週期數。
-
開始訓練:
- 點擊「一鍵訓練」開始聲音模型訓練。
- 根據數據量和硬件,訓練過程可能需要 1-1.5 小時。
-
使用訓練好的模型:
- 訓練完成後,您可以在「資產」和「日誌」資料夾中找到訓練好的模型檔案。
- 在「模型推論」標籤中,選擇您的訓練模型並調整轉調值以匹配源音訊。
- 通過提供音訊檔案路徑並點擊「轉換」,將任何音訊檔案轉換為您的複製聲音。
-
(可選) 使用預訓練的聲音模型:
- 訪問 voicemodels.com 以下載社區創建的預訓練聲音模型。
- 解壓縮模型檔案並將它們放在適當的資料夾中,然後在 RVC 網頁 UI 中使用它們。
請記住,最終複製聲音的品質取決於源音訊數據的品質和持續時間。嘗試不同的設定和音訊源以獲得最佳結果。
使用 RVC 的預訓練語音模型
使用 RVC 的預訓練語音模型
RVC 社區擁有大量預訓練的聲音模型,您可以直接下載並使用,無需進行自己的訓練。要找到這些模型,您可以訪問 voicemodels.com 網站。
在這個網站上,您可以搜索任何您想要的聲音模型,例如特定的角色或名人。例如,如果您想使用海綿寶寶的聲音模型,您可以簡單地點擊鏈接下載預訓練的壓縮檔。
下載完壓縮檔後,您需要解壓縮它包含的兩個檔案:一個 .pth
檔案和一個索引檔案。.pth
檔案需要放在 assets/wavs
資料夾中,索引檔案需要放在 logs
資料夾中。
之後,您可以返回 RVC 網頁 UI,點擊「刷新聲音列表」按鈕,然後選擇您剛剛添加的聲音模型。您可以根據需要調整八度音階,然後點擊「轉換」將聲音模型應用到您的音訊上。
這個過程允許您使用預訓練的聲音模型,而無需經歷整個訓練過程,這使得複製聲音變得更快捷和更容易。
將 RVC 與文字轉語音結合以實現無縫轉換
將 RVC 與文字轉語音結合以實現無縫轉換
要將 RVC 與文字轉語音結合以實現無縫轉換,請按照以下步驟操作:
- 在文字生成 WebUI 中使用 Cooked TTS 擴充功能從所需的文字生成初始音訊檔案。
- 在 Cooked TTS 擴充功能中,確保聊天中的第一條消息是您想要轉換為音訊的文字。
- 音訊檔案生成後,下載它並將其用作 RVC 轉換過程的輸入。
- 在 RVC 網頁 UI 中,選擇您想要使用的聲音模型。
- 根據需要調整音高/轉調值以匹配目標聲音。
- 點擊「轉換」以生成使用複製聲音的最終音訊檔案。
這種方法允許您利用文字生成 WebUI 的文字轉語音功能來創建初始音訊,然後使用 RVC 將其轉換為所需的複製聲音。這提供了一個無縫的工作流程,可以從文字輸入創建帶有複製聲音的音訊。
結論
結論
在這個全面的指南中,我們探索了 RVC (Real Voice Cloning) 的強大功能,這是一個開源程式,允許您複製任何聲音並將音訊檔案轉換為該新聲音。我們介紹了安裝 RVC 的逐步過程,包括一鍵安裝程式和手動安裝方法。
您已經學會如何準備高品質的音訊樣本、訓練自己的聲音模型,甚至利用 RVC 社區的預訓練模型。複製聲音的能力為您打開了一個全新的世界,從讓摩根·弗里曼為您講睡前故事,到讓戈登·拉姆齊在您烹飪時大罵侮辱。
此外,我們還討論了如何將 RVC 與文字轉語音工具整合,使您能夠在不需要大量音訊錄製的情況下,使用複製的聲音生成音訊。這種無縫的整合允許更多創造性的應用,例如在虛擬環境中進行角色扮演。
請記住,雖然 RVC 的功能令人印象深刻,但重要的是要負責任和合乎道德地使用這項技術。尊重個人的隱私和權利,避免任何惡意或欺騙性的聲音複製用途。
擁抱 RVC 的力量,讓您的創造力飛翔。可能性是無限的,語音技術的未來就在您手中。
常問問題
常問問題