釋放本地文字轉語音 AI 的力量:免費創造令人難以置信的聲音

釋放本地文字轉語音 AI 的力量:免費創造令人難以置信的聲音。發現 4 種方法在您的本地電腦上生成高品質、可自訂的文字轉語音聲音。從快速複製到微調模型,為您的專案創造完美的 AI 聲音。

2025年2月21日

party-gif

使用這個分步指南,免費在本地創建您自己的自定義文本轉語音聲音。了解如何使用簡單的克隆技術和微調模型生成高質量的 AI 語音,而無需依賴昂貴的第三方服務。

最簡單的文字轉語音:10秒音訊快速複製

要使用 10 秒音频的快速克隆方法:

  1. 进入 xtts-webui 文件夹并启动 start-xtts-webui.bat 文件。这将下载必要的文件并启动 web UI。

  2. 在 web UI 中输入您想要语音朗读的文本。没有字符限制。

  3. 从下拉菜单中选择您想要的语言。

  4. 上传 5-10 秒长的音频剪辑。这将用于克隆语音。

  5. 点击"生成"按钮,几秒钟内您就可以获得生成的音频文件使用。

这是在本地计算机上创建文本到语音的最简单和最懒惰的方法。虽然不完美,但它提供了一个只需 10 秒音频的快速解决方案。

中等文字轉語音:微調您自己的XTTS模型

现在,让我们来看看中等文本到语音方法,我们将从头开始训练自己的 XTTS 模型。这种方法只需要 2 分钟的音频,这比通常需要 10-20 分钟的好结果要少得多。

首先,进入 XTTS 微调 web UI 文件夹并启动 start.bat 文件。这将为您提供一个可以在浏览器中打开的本地 URL。

对于这种方法,您需要一个 2 分钟的音频文件。如果您和我一样感到懒惰,您可以简单地在 Audacity 中多次重复一个 30 秒的音频剪辑来创建一个 2 分钟的文件。

一旦您有了音频文件,就在 web UI 中上传它。确保选择正确的语言(在本例中为英语)。然后,单击"步骤 1:创建数据集"按钮。根据您音频的长度,格式化过程可能需要一分钟或更短的时间。

接下来,转到第二个选项卡。您可以保留默认设置,但您可能想将纪元数从默认的 6 增加到 10 或 12,以获得更好的结果。确保您使用的是 2.0.2 版本,因为这是最好的。

单击"运行训练"按钮,训练就会开始。一旦完成,单击"优化模型"按钮以使最终文件更小、更易于使用。

最后,转到名为"推理"的第三个选项卡。单击"从输出文件夹加载 TTS 参数"按钮,然后单击"加载模型"按钮。现在,您可以输入文本并单击"推理"来生成音频。

生成的音频质量将比初始的 10 秒克隆方法好得多,因为模型已经针对您的声音进行了微调。您会注意到暂停、"呃"声等特点,这些都存在于参考音频中。

有了这个微调模型,您现在可以随意使用它,因为没有任何限制。这种中等文本到语音方法是努力和质量之间的一个很好的折衷。

終極文字轉語音組合:XTTS + RVC

现在我们已经安装了所有必要的软件,让我们深入探讨使用 XTTS 和 RVC 的终极文本到语音组合。

方法 A:简单转换

  1. 在 XTTS web UI 内,输入您的文本和参考音频文件。
  2. 单击"生成"获取初始文本到语音音频。
  3. 下载生成的文件。
  4. 启动 RVC 并选择参考语音模型。
  5. 粘贴下载文件的路径,然后单击"转换"。
  6. 最终音频现在将具有参考模型的声音。

方法 B:自动 XTTS + RVC

  1. 进入 XTTS RVC UI 文件夹,输入 RVC 语音模型(.pth 和索引文件)。
  2. 在"voices"文件夹中,输入参考语音样本(10 秒音频剪辑)。
  3. 启动 .bat 文件并在浏览器中打开本地 URL。
  4. 选择语言、RVC 模型和语音样本。
  5. 输入您的文本并单击"提交"。
  6. 最终音频将自动生成,结合了 XTTS 和 RVC。

方法 C:终极文本到语音

  1. 进入 XTTS 微调 web UI 文件夹,找到微调的 XTTS 模型文件。
  2. 剪切这些文件,并将它们粘贴到 XTTS web UI 的"models"文件夹中。
  3. 启动 XTTS web UI 并选择自定义 XTTS 模型。
  4. 输入您的文本和参考音频,然后单击"生成"。
  5. 下载生成的文件并在 RVC 中打开它。
  6. 选择参考语音模型,然后单击"转换"。
  7. 最终音频将是终极文本到语音组合,使用自定义 XTTS 模型和 RVC。

请记住,Uber 方法提供了最高的质量和真实性,但需要更多的努力。选择最适合您需求和偏好的方法。

結論

在这个全面的指南中,我们探讨了在本地计算机上创建高质量、定制文本到语音(TTS)声音的各种方法。从超懒惰的 10 秒语音克隆到终极 Uber 级 TTS,我们涵盖了一系列适合您特定需求的技术。

从最简单的方法开始,我们演示了如何使用 XTTS web UI 从仅 10 秒的参考音频生成 TTS 音频。这种快速简单的方法允许您以最少的努力创建个性化的声音。

接下来,我们深入探讨了中等级别的 TTS 方法,我们使用只有 2 分钟音频来微调 XTTS 模型。这个过程使我们能够创造一个更加真实和富有表现力的 TTS 声音,定制于说话者的独特特征。

最后,我们揭示了终极 Uber TTS 方法,它结合了 XTTS 和 RVC(Real-Voice Cloning)的力量,以实现最高水平的质量和真实性。通过利用我们自定义训练的 XTTS 模型和 RVC 先进的语音转换功能,我们能够生成非常接近原始说话者的 TTS 音频。

在整个指南中,我们提供了分步说明和实用技巧,以确保顺利的安装和实施过程。无论您是初学者还是有经验的用户,您现在都拥有在本地计算机上创建自己的高质量 TTS 声音的知识和工具,无需使用昂贵的第三方软件。

请记住,指南中提到的资源和图形可在我的 Patreon 上免费获得,所以请务必查看描述中的链接。如果您有任何问题或需要进一步帮助,欢迎通过 Patreon 平台与我联系,我会为我的赞助者提供优先支持。

祝您文本到语音探险愉快,尽情享受定制的本地 TTS 声音!

常問問題