一键免费在本地克隆任何AI语音!创建自定义语音

使用人工智能一键在本地克隆任何声音!轻松从音频剪辑中创建自定义声音。了解如何访问数千个预训练的语音模型,并将它们无缝集成到您的项目中。

2025年2月19日

party-gif

发现使用几个音频片段就能克隆任何AI语音的力量。从摩根·弗里曼为您朗读睡前故事到戈登·拉姆齐在您烹饪晚餐时大声咒骂,无限的可能性都在等着您。这篇博客文章将向您展示如何使用令人惊叹的开源程序RVC来创建自己的语音模型,并将任何音频转换为您选择的声音,全部免费在您的本地机器上完成。

轻松免费克隆任何 AI 语音使用 RVC

安装RVC有两种方式:

  1. 一键安装程序: 如果您是Patreon支持者,可以下载一键安装程序,双击即可安装RVC。

  2. 手动安装:

    • 确保您已安装Python和Windows Git。
    • 在您的电脑上创建一个新文件夹,并在该文件夹中打开命令提示符(CMD)。
    • 在CMD中运行git clone <repository-link>克隆RVC仓库。
    • 运行提供的命令确定您的PyTorch版本。
    • 创建一个新的Python环境并激活它。
    • 安装所需的依赖项。
    • 下载必要的模型和文件。
    • 启动go_webui.bat文件以启动RVC Web UI。

克隆声音:

  1. 在"训练"选项卡中,输入新声音克隆的名称并设置目标采样率。
  2. 提供训练音频文件的路径(至少10分钟的高质量音频)。
  3. 配置训练设置,如训练周期数、批量大小和保存频率。
  4. 点击"一键训练"开始训练过程。

训练完成后,您可以在"模型推理"选项卡中使用克隆的声音。调整变调值以匹配源音频的音高,选择要转换的音频文件路径,然后点击"转换"生成新的克隆声音音频。

另外,您也可以从社区网站如voicemodels.com下载预训练的声音模型,无需训练即可直接使用。

要使用克隆声音进行文本转语音,可以利用Cooked TTS扩展在文本生成Web UI中生成初始音频,然后使用RVC将其转换为克隆声音。

请记住,虽然RVC允许您克隆任何声音,但重要的是要负责任和合乎道德地使用这项技术。

手动为高级用户安装 RVC

要手动安装RVC,请按照以下步骤操作:

  1. 确保您的电脑上已安装Python和Windows Git。
  2. 在您的电脑上创建一个新文件夹,并给它起一个名字。
  3. 在文件夹路径中输入CMD并按Enter打开命令提示符。
  4. 在GitHub页面上,点击"Code",然后点击复制图标复制仓库链接。
  5. 在命令提示符中,输入git clone并粘贴复制的链接,然后按Enter将仓库克隆到您的电脑上。
  6. 输入cd加上文件夹名称并按Enter导航到克隆的文件夹。
  7. 复制并粘贴描述中提供的命令以确定您的PyTorch版本,记下"CU"版本,您稍后会需要它。
  8. 输入python -m venv env创建一个新的Python环境并按Enter。
  9. 使用描述中提供的命令激活环境,但请确保将"CU118"替换为您之前记下的正确"CU"版本。
  10. 运行提供的命令安装要求。
  11. 如果遇到与NumPy模块相关的错误,请先使用pip uninstall numpy卸载它,然后使用版本1.23.5重新安装。
  12. 运行python tools/download_models.py下载模型。
  13. 从提供的链接下载ffmpeg.exeff.exe文件,并将它们放在主文件夹中。
  14. 从提供的链接下载四个启动文件,并将它们放在主文件夹中,覆盖任何现有文件。
  15. 启动go_webui.bat文件以启动RVC Web UI。

现在您已准备好开始使用RVC克隆声音了!

使用 RVC 训练您自己的语音模型

要使用RVC训练自己的声音模型,请按照以下步骤操作:

  1. 准备您的声音数据:

    • 您需要至少10分钟的高质量、干净的语音录音。
    • 如果您要克隆他人的声音,请下载他们的采访视频,并使用Audacity等工具分离出他们的声音。
  2. 安装RVC:

    • 如果您是Patreon支持者,请使用一键安装程序,否则请按照手动安装步骤操作。
    • 确保您安装了正确的CUDA版本。
  3. 设置训练:

    • 在RVC Web UI的"训练"选项卡中。
    • 输入新声音克隆的名称并设置目标采样率。
    • 指定您的声音数据文件夹路径。
    • 选择适当的训练设置,如训练周期数。
  4. 开始训练:

    • 点击"一键训练"开始声音模型训练。
    • 训练过程可能需要1-1.5小时,具体取决于数据量和硬件。
  5. 使用训练好的模型:

    • 训练完成后,您可以在"资产"和"日志"文件夹中找到训练好的模型文件。
    • 在"模型推理"选项卡中,选择您的训练模型并调整变调值以匹配源音频。
    • 提供音频文件路径并点击"转换"即可将其转换为克隆声音。
  6. (可选)使用预训练的声音模型:

    • 访问voicemodels.com下载社区创建的预训练声音模型。
    • 提取模型文件并将它们放在适当的文件夹中,然后在RVC Web UI中使用它们。

请记住,最终克隆声音的质量取决于源音频数据的质量和持续时间。请尝试不同的设置和音频源,以获得最佳结果。

使用 RVC 的预训练语音模型

RVC社区拥有大量可供下载和直接使用的预训练声音模型,无需自行训练。您可以访问voicemodels.com网站来查找这些模型。

在这个网站上,您可以搜索任何您想要的声音模型,比如特定的角色或名人。例如,如果您想使用海绵宝宝的声音模型,只需点击链接下载预训练的存档文件即可。

下载完存档文件后,您需要提取其中包含的两个文件:一个.pth文件和一个索引文件。.pth文件需要放在assets/wavs文件夹中,索引文件需要放在logs文件夹中。

之后,您可以返回RVC Web UI,点击"刷新声音列表"按钮,然后选择刚刚添加的声音模型。您可以根据需要调整八度音程,然后点击"转换"将声音模型应用到您的音频上。

这个过程允许您使用预训练的声音模型,而无需自己经历整个训练过程,这使得克隆声音变得更加快捷和简单。

将 RVC 与文本转语音结合以实现无缝转换

要将RVC与文本转语音结合使用以实现无缝转换,请按照以下步骤操作:

  1. 在文本生成Web UI的Cooked TTS扩展中使用文本生成初始音频文件。
  2. 在Cooked TTS扩展中,确保聊天中的第一条消息是您想要转换为音频的文本。
  3. 音频文件生成后,下载它并将其用作RVC转换过程的输入。
  4. 在RVC Web UI中,选择您想要使用的声音模型。
  5. 根据需要调整音高/变调值以匹配目标声音。
  6. 点击"转换"生成使用克隆声音的最终音频文件。

这种方法允许您利用文本生成Web UI的文本转语音功能来创建初始音频,然后使用RVC将其转换为所需的克隆声音。这提供了一个无缝的工作流程,可以从文本输入创建使用克隆声音的音频。

结论

在这个全面的指南中,我们探讨了RVC(Real Voice Cloning)的强大功能,这是一个开源程序,可以让您克隆任何声音并将音频文件转换为该新声音。我们介绍了安装RVC的逐步过程,包括一键安装程序和手动安装方法。

您已经学会了如何准备高质量的音频样本、训练自己的声音模型,以及利用RVC社区的预训练模型。克隆声音的能力为您打开了一个全新的世界,从让摩根·弗里曼给您讲睡前故事,到让戈登·拉姆齐在您烹饪时大骂。

此外,我们还讨论了如何将RVC与文本转语音工具集成,使您能够在不需要大量音频录制的情况下,生成使用克隆声音的音频。这种无缝集成允许您进行更多创造性的应用,如在虚拟环境中进行角色扮演。

请记住,虽然RVC的功能令人印象深刻,但重要的是要负责任和合乎道德地使用这项技术。尊重个人的隐私和权利,避免任何恶意或欺骗性的声音克隆用途。

拥抱RVC的力量,让您的创造力飞翔。可能性是无穷无尽的,语音技术的未来就在您手中。

FAQ