释放本地文本到语音 AI 的力量:免费创造令人难以置信的声音

释放本地文本到语音 AI 的力量:免费创造令人难以置信的声音。发现 4 种方法在您的本地计算机上生成高质量、可定制的文本到语音声音。从快速克隆到微调模型,为您的项目创造完美的 AI 语音。

2025年2月24日

party-gif

使用这个分步指南在本地免费创建您自己的自定义文本到语音声音。了解如何使用简单的克隆技术和微调模型生成高质量的 AI 语音,而无需依赖昂贵的第三方服务。

最简单的文本转语音:10秒音频快速克隆

使用10秒音频的快速克隆方法:

  1. 进入 xtts-webui 文件夹,启动 start-xtts-webui.bat 文件。这将下载必要的文件并启动Web UI。

  2. 在Web UI中输入您想要语音朗读的文本。没有字符限制。

  3. 从下拉菜单中选择您想要的语言。

  4. 上传5-10秒长的音频剪辑。这将用于克隆语音。

  5. 点击"生成

中等文本转语音:微调您自己的XTTS模型

几秒钟内您就可以获得生成的音频文件使用。\n\n这是在本地计算机上创建文本到语音的最简单和最懒惰的方法。虽然不完美

终极文本转语音组合:XTTS + RVC

但它提供了一个只需10秒音频的快速解决方案。

结论

现在,让我们来看看中等文本到语音方法,我们将从头开始训练自己的XTTS模型。这种方法只需要2分钟的音频,这比通常需要10-20分钟的好结果要少得多。

首先,进入XTTS微调Web UI文件夹,启动 start.bat 文件。这将为您提供一个可以在浏览器中打开的本地URL。

对于这种方法,您需要一个2分钟的音频文件。如果您和我一样感到懒惰,您可以简单地在Audacity中多次重复一个30秒的音频剪辑来创建一个2分钟的文件。

一旦您有了音频文件,就上传到Web UI中。确保选择正确的语言(在本例中为英语)。然后,点击"第1步:创建数据集"按钮。根据您音频的长度,格式化过程可能需要一分钟或更短的时间。

接下来,转到第二个选项卡。您可以保留默认设置,但您可能想将纪元数从默认的6增加到10或12,以获得更好的结果。确保您使用的是2.0.2版本,因为这是最好的。

点击"运行训练"按钮,训练就会开始。一旦完成,点击"优化模型"按钮来缩小最终文件,使其更易于使用。

最后,转到名为"推理"的第三个选项卡。点击"从输出文件夹加载TTS参数"按钮,然后点击"加载模型"按钮。现在,您可以输入文本并点击"推理"来生成音频。

生成的音频质量将比初始的10秒克隆方法好得多,因为模型已经针对您的声音进行了微调。您会注意到暂停、"呃"声等特点,这些都存在于参考音频中。

有了这个微调模型,您现在可以随意使用它,没有任何限制。这种中等文本到语音方法是努力和质量之间的一个很好的折衷。

现在我们已经安装了所有必要的软件,让我们深入探讨使用XTTS和RVC的终极文本到语音组合。

方法A:简单转换

  1. 在XTTS Web UI中输入您的文本和参考音频文件。
  2. 点击"生成"获取初始的文本到语音音频。
  3. 下载生成的文件。
  4. 启动RVC并选择参考语音模型。
  5. 粘贴下载文件的路径,然后点击"转换"。
  6. 最终音频将具有参考模型的声音。

方法B:自动XTTS + RVC

  1. 进入XTTS RVC UI文件夹,输入RVC语音模型(.pth和索引文件)。
  2. 在"voices"文件夹中,输入参考语音样本(10秒音频剪辑)。
  3. 启动.bat文件,在浏览器中打开本地URL。
  4. 选择语言、RVC模型和语音样本。
  5. 输入您的文本,然后点击"提交"。
  6. 最终音频将自动生成,结合了XTTS和RVC。

方法C:终极文本到语音

  1. 进入XTTS微调Web UI文件夹,找到微调的XTTS模型文件。
  2. 剪切这些文件,并将它们粘贴到XTTS Web UI的"models"文件夹中。
  3. 启动XTTS Web UI,选择自定义XTTS模型。
  4. 输入您的文本和参考音频,然后点击"生成"。
  5. 下载生成的文件,并在RVC中打开。
  6. 选择参考语音模型,然后点击"转换"。
  7. 最终音频将是终极文本到语音组合,使用自定义XTTS模型和RVC。

请记住,Uber方法提供了最高的质量和真实性,但需要更多的努力。选择最适合您需求和偏好的方法。

在这个全面的指南中,我们探讨了在本地计算机上创建高质量、定制文本到语音(TTS)声音的各种方法。从超懒惰的10秒语音克隆到终极Uber级TTS,我们涵盖了一系列适合您特定需求的技术。

从最简单的方法开始,我们演示了如何使用XTTS Web UI从仅10秒的参考音频生成TTS音频。这种快速简单的方法允许您以最小的努力创建个性化的声音。

接下来,我们深入探讨了中等水平的TTS方法,我们使用只有2分钟音频来微调XTTS模型。这个过程使我们能够创造一个更加真实和富有表现力的TTS声音,定制于说话者的独特特征。

最后,我们揭示了终极Uber TTS方法,它结合了XTTS和RVC(Real-Voice Cloning)的力量,以实现最高水平的质量和真实性。通过利用我们自定义训练的XTTS模型和RVC先进的语音转换功能,我们能够生成非常接近原始说话者的TTS音频。

在整个指南中,我们提供了分步说明和实用技巧,以确保顺利的安装和实施过程。无论您是初学者还是有经验的用户,您现在都拥有在本地计算机上创建高质量TTS声音的知识和工具,无需使用昂贵的第三方软件。

请记住,指南中提到的资源和图形都可以在我的Patreon上免费获得,所以请务必查看描述中的链接。如果您有任何问题或需要进一步帮助,欢迎通过Patreon平台与我联系,我会为我的赞助者提供优先支持。

祝您文本到语音探险愉快,尽情享受定制的本地TTS声音!

FAQ