释放本地文本到语音 AI 的力量:免费创造令人难以置信的声音
释放本地文本到语音 AI 的力量:免费创造令人难以置信的声音。发现 4 种方法在您的本地计算机上生成高质量、可定制的文本到语音声音。从快速克隆到微调模型,为您的项目创造完美的 AI 语音。
2025年2月24日

使用这个分步指南在本地免费创建您自己的自定义文本到语音声音。了解如何使用简单的克隆技术和微调模型生成高质量的 AI 语音,而无需依赖昂贵的第三方服务。
最简单的文本转语音:10秒音频快速克隆
最简单的文本转语音:10秒音频快速克隆
使用10秒音频的快速克隆方法:
-
进入
xtts-webui
文件夹,启动start-xtts-webui.bat
文件。这将下载必要的文件并启动Web UI。 -
在Web UI中输入您想要语音朗读的文本。没有字符限制。
-
从下拉菜单中选择您想要的语言。
-
上传5-10秒长的音频剪辑。这将用于克隆语音。
-
点击"生成
中等文本转语音:微调您自己的XTTS模型
中等文本转语音:微调您自己的XTTS模型
几秒钟内您就可以获得生成的音频文件使用。\n\n这是在本地计算机上创建文本到语音的最简单和最懒惰的方法。虽然不完美
终极文本转语音组合:XTTS + RVC
终极文本转语音组合:XTTS + RVC
但它提供了一个只需10秒音频的快速解决方案。
结论
结论
现在,让我们来看看中等文本到语音方法,我们将从头开始训练自己的XTTS模型。这种方法只需要2分钟的音频,这比通常需要10-20分钟的好结果要少得多。
首先,进入XTTS微调Web UI文件夹,启动 start.bat
文件。这将为您提供一个可以在浏览器中打开的本地URL。
对于这种方法,您需要一个2分钟的音频文件。如果您和我一样感到懒惰,您可以简单地在Audacity中多次重复一个30秒的音频剪辑来创建一个2分钟的文件。
一旦您有了音频文件,就上传到Web UI中。确保选择正确的语言(在本例中为英语)。然后,点击"第1步:创建数据集"按钮。根据您音频的长度,格式化过程可能需要一分钟或更短的时间。
接下来,转到第二个选项卡。您可以保留默认设置,但您可能想将纪元数从默认的6增加到10或12,以获得更好的结果。确保您使用的是2.0.2版本,因为这是最好的。
点击"运行训练"按钮,训练就会开始。一旦完成,点击"优化模型"按钮来缩小最终文件,使其更易于使用。
最后,转到名为"推理"的第三个选项卡。点击"从输出文件夹加载TTS参数"按钮,然后点击"加载模型"按钮。现在,您可以输入文本并点击"推理"来生成音频。
生成的音频质量将比初始的10秒克隆方法好得多,因为模型已经针对您的声音进行了微调。您会注意到暂停、"呃"声等特点,这些都存在于参考音频中。
有了这个微调模型,您现在可以随意使用它,没有任何限制。这种中等文本到语音方法是努力和质量之间的一个很好的折衷。
现在我们已经安装了所有必要的软件,让我们深入探讨使用XTTS和RVC的终极文本到语音组合。
方法A:简单转换
- 在XTTS Web UI中输入您的文本和参考音频文件。
- 点击"生成"获取初始的文本到语音音频。
- 下载生成的文件。
- 启动RVC并选择参考语音模型。
- 粘贴下载文件的路径,然后点击"转换"。
- 最终音频将具有参考模型的声音。
方法B:自动XTTS + RVC
- 进入XTTS RVC UI文件夹,输入RVC语音模型(
.pth
和索引文件)。 - 在"voices"文件夹中,输入参考语音样本(10秒音频剪辑)。
- 启动
.bat
文件,在浏览器中打开本地URL。 - 选择语言、RVC模型和语音样本。
- 输入您的文本,然后点击"提交"。
- 最终音频将自动生成,结合了XTTS和RVC。
方法C:终极文本到语音
- 进入XTTS微调Web UI文件夹,找到微调的XTTS模型文件。
- 剪切这些文件,并将它们粘贴到XTTS Web UI的"models"文件夹中。
- 启动XTTS Web UI,选择自定义XTTS模型。
- 输入您的文本和参考音频,然后点击"生成"。
- 下载生成的文件,并在RVC中打开。
- 选择参考语音模型,然后点击"转换"。
- 最终音频将是终极文本到语音组合,使用自定义XTTS模型和RVC。
请记住,Uber方法提供了最高的质量和真实性,但需要更多的努力。选择最适合您需求和偏好的方法。
在这个全面的指南中,我们探讨了在本地计算机上创建高质量、定制文本到语音(TTS)声音的各种方法。从超懒惰的10秒语音克隆到终极Uber级TTS,我们涵盖了一系列适合您特定需求的技术。
从最简单的方法开始,我们演示了如何使用XTTS Web UI从仅10秒的参考音频生成TTS音频。这种快速简单的方法允许您以最小的努力创建个性化的声音。
接下来,我们深入探讨了中等水平的TTS方法,我们使用只有2分钟音频来微调XTTS模型。这个过程使我们能够创造一个更加真实和富有表现力的TTS声音,定制于说话者的独特特征。
最后,我们揭示了终极Uber TTS方法,它结合了XTTS和RVC(Real-Voice Cloning)的力量,以实现最高水平的质量和真实性。通过利用我们自定义训练的XTTS模型和RVC先进的语音转换功能,我们能够生成非常接近原始说话者的TTS音频。
在整个指南中,我们提供了分步说明和实用技巧,以确保顺利的安装和实施过程。无论您是初学者还是有经验的用户,您现在都拥有在本地计算机上创建高质量TTS声音的知识和工具,无需使用昂贵的第三方软件。
请记住,指南中提到的资源和图形都可以在我的Patreon上免费获得,所以请务必查看描述中的链接。如果您有任何问题或需要进一步帮助,欢迎通过Patreon平台与我联系,我会为我的赞助者提供优先支持。
祝您文本到语音探险愉快,尽情享受定制的本地TTS声音!
FAQ
FAQ