釋放本地文字轉語音 AI 的力量:免費創造令人難以置信的聲音
釋放本地文字轉語音 AI 的力量:免費創造令人難以置信的聲音。發現 4 種方法在您的本地電腦上生成高品質、可自訂的文字轉語音聲音。從快速複製到微調模型,為您的專案創造完美的 AI 聲音。
2025年2月19日

使用這個分步指南,免費在本地創建您自己的自定義文本轉語音聲音。了解如何使用簡單的克隆技術和微調模型生成高質量的 AI 語音,而無需依賴昂貴的第三方服務。
最簡單的文字轉語音:10秒音訊快速複製
最簡單的文字轉語音:10秒音訊快速複製
要使用 10 秒音频的快速克隆方法:
-
进入
xtts-webui
文件夹并启动start-xtts-webui.bat
文件。这将下载必要的文件并启动 web UI。 -
在 web UI 中输入您想要语音朗读的文本。没有字符限制。
-
从下拉菜单中选择您想要的语言。
-
上传 5-10 秒长的音频剪辑。这将用于克隆语音。
-
点击"生成"按钮,几秒钟内您就可以获得生成的音频文件使用。
这是在本地计算机上创建文本到语音的最简单和最懒惰的方法。虽然不完美,但它提供了一个只需 10 秒音频的快速解决方案。
中等文字轉語音:微調您自己的XTTS模型
中等文字轉語音:微調您自己的XTTS模型
现在,让我们来看看中等文本到语音方法,我们将从头开始训练自己的 XTTS 模型。这种方法只需要 2 分钟的音频,这比通常需要 10-20 分钟的好结果要少得多。
首先,进入 XTTS 微调 web UI 文件夹并启动 start.bat
文件。这将为您提供一个可以在浏览器中打开的本地 URL。
对于这种方法,您需要一个 2 分钟的音频文件。如果您和我一样感到懒惰,您可以简单地在 Audacity 中多次重复一个 30 秒的音频剪辑来创建一个 2 分钟的文件。
一旦您有了音频文件,就在 web UI 中上传它。确保选择正确的语言(在本例中为英语)。然后,单击"步骤 1:创建数据集"按钮。根据您音频的长度,格式化过程可能需要一分钟或更短的时间。
接下来,转到第二个选项卡。您可以保留默认设置,但您可能想将纪元数从默认的 6 增加到 10 或 12,以获得更好的结果。确保您使用的是 2.0.2 版本,因为这是最好的。
单击"运行训练"按钮,训练就会开始。一旦完成,单击"优化模型"按钮以使最终文件更小、更易于使用。
最后,转到名为"推理"的第三个选项卡。单击"从输出文件夹加载 TTS 参数"按钮,然后单击"加载模型"按钮。现在,您可以输入文本并单击"推理"来生成音频。
生成的音频质量将比初始的 10 秒克隆方法好得多,因为模型已经针对您的声音进行了微调。您会注意到暂停、"呃"声等特点,这些都存在于参考音频中。
有了这个微调模型,您现在可以随意使用它,因为没有任何限制。这种中等文本到语音方法是努力和质量之间的一个很好的折衷。
終極文字轉語音組合:XTTS + RVC
終極文字轉語音組合:XTTS + RVC
现在我们已经安装了所有必要的软件,让我们深入探讨使用 XTTS 和 RVC 的终极文本到语音组合。
方法 A:简单转换
- 在 XTTS web UI 内,输入您的文本和参考音频文件。
- 单击"生成"获取初始文本到语音音频。
- 下载生成的文件。
- 启动 RVC 并选择参考语音模型。
- 粘贴下载文件的路径,然后单击"转换"。
- 最终音频现在将具有参考模型的声音。
方法 B:自动 XTTS + RVC
- 进入 XTTS RVC UI 文件夹,输入 RVC 语音模型(
.pth
和索引文件)。 - 在"voices"文件夹中,输入参考语音样本(10 秒音频剪辑)。
- 启动 .bat 文件并在浏览器中打开本地 URL。
- 选择语言、RVC 模型和语音样本。
- 输入您的文本并单击"提交"。
- 最终音频将自动生成,结合了 XTTS 和 RVC。
方法 C:终极文本到语音
- 进入 XTTS 微调 web UI 文件夹,找到微调的 XTTS 模型文件。
- 剪切这些文件,并将它们粘贴到 XTTS web UI 的"models"文件夹中。
- 启动 XTTS web UI 并选择自定义 XTTS 模型。
- 输入您的文本和参考音频,然后单击"生成"。
- 下载生成的文件并在 RVC 中打开它。
- 选择参考语音模型,然后单击"转换"。
- 最终音频将是终极文本到语音组合,使用自定义 XTTS 模型和 RVC。
请记住,Uber 方法提供了最高的质量和真实性,但需要更多的努力。选择最适合您需求和偏好的方法。
結論
結論
在这个全面的指南中,我们探讨了在本地计算机上创建高质量、定制文本到语音(TTS)声音的各种方法。从超懒惰的 10 秒语音克隆到终极 Uber 级 TTS,我们涵盖了一系列适合您特定需求的技术。
从最简单的方法开始,我们演示了如何使用 XTTS web UI 从仅 10 秒的参考音频生成 TTS 音频。这种快速简单的方法允许您以最少的努力创建个性化的声音。
接下来,我们深入探讨了中等级别的 TTS 方法,我们使用只有 2 分钟音频来微调 XTTS 模型。这个过程使我们能够创造一个更加真实和富有表现力的 TTS 声音,定制于说话者的独特特征。
最后,我们揭示了终极 Uber TTS 方法,它结合了 XTTS 和 RVC(Real-Voice Cloning)的力量,以实现最高水平的质量和真实性。通过利用我们自定义训练的 XTTS 模型和 RVC 先进的语音转换功能,我们能够生成非常接近原始说话者的 TTS 音频。
在整个指南中,我们提供了分步说明和实用技巧,以确保顺利的安装和实施过程。无论您是初学者还是有经验的用户,您现在都拥有在本地计算机上创建自己的高质量 TTS 声音的知识和工具,无需使用昂贵的第三方软件。
请记住,指南中提到的资源和图形可在我的 Patreon 上免费获得,所以请务必查看描述中的链接。如果您有任何问题或需要进一步帮助,欢迎通过 Patreon 平台与我联系,我会为我的赞助者提供优先支持。
祝您文本到语音探险愉快,尽情享受定制的本地 TTS 声音!
常問問題
常問問題