Раскройте силу локального текст-в-речь AI: создавайте невероятные голоса бесплатно
Раскройте силу локального AI-синтеза речи: создавайте невероятные голоса бесплатно. Откройте для себя 4 метода создания высококачественных, настраиваемых голосов синтеза речи на вашем локальном компьютере. От быстрого клонирования до точной настройки моделей, создайте идеальный голос AI для ваших проектов.
28 марта 2025 г.

Создайте свои собственные пользовательские голоса для преобразования текста в речь локально и бесплатно с помощью этого пошагового руководства. Узнайте, как создавать высококачественные голоса AI, используя простые методы клонирования и тонкую настройку моделей, без необходимости полагаться на дорогостоящие сторонние услуги.
Самый простой текст-в-речь: быстрое клонирование с 10 секундами аудио
Средний текст-в-речь: тонкая настройка вашей собственной модели XTTS
Окончательная комбинация текст-в-речь: XTTS + RVC
Заключение
Самый простой текст-в-речь: быстрое клонирование с 10 секундами аудио
Самый простой текст-в-речь: быстрое клонирование с 10 секундами аудио
Чтобы использовать быстрый метод клонирования с 10 секундами аудио:
-
Перейдите в папку
xtts-webui
и запустите файлstart-xtts-webui.bat
. Это загрузит необходимые файлы и запустит веб-интерфейс. -
В веб-интерфейсе введите текст, который вы хотите, чтобы ваш голос прочитал. Ограничения по количеству символов нет.
-
Выберите желаемый язык из выпадающего списка.
-
Загрузите аудиоклип длительностью от 5 до 10 секунд. Он будет использован для клонирования голоса.
-
Нажмите "Сгенерировать", и через несколько секунд у вас будет готовый аудиофайл для использования.
Средний текст-в-речь: тонкая настройка вашей собственной модели XTTS
Средний текст-в-речь: тонкая настройка вашей собственной модели XTTS
Теперь перейдем к среднему методу преобразования текста в речь, где мы будем обучать нашу собственную модель XTTS с нуля. Этот метод требует всего 2 минуты аудио, что значительно меньше, чем типичные 10-20 минут, необходимые для получения хороших результатов.
Сначала перейдите в папку веб-интерфейса XTTS fine-tune и запустите файл start.bat
. Это даст вам локальный URL-адрес, который вы можете открыть в своем браузере.
Для этого метода вам понадобится аудиофайл длительностью 2 минуты. Если вы, как и я, чувствуете себя ленивым, вы можете просто взять 30-секундный аудиоклип и несколько раз повторить его в Audacity, чтобы создать 2-минутный файл.
Когда у вас будет аудиофайл, загрузите его в веб-интерфейс. Убедитесь, что выбран правильный язык (в данном случае английский). Затем нажмите кнопку "Шаг 1: Создать набор данных". В зависимости от длины вашего аудио, процесс форматирования может занять минуту или меньше.
Затем перейдите ко второй вкладке. Вы можете оставить настройки как есть, но, возможно, захотите увеличить количество эпох с 6 по умолчанию до 10 или 12 для лучших результатов. Убедитесь, что вы используете версию 2.0.2, так как она является лучшей.
Нажмите кнопку "Запустить обучение", и обучение начнется. Как только оно будет завершено, нажмите кнопку "Оптимизировать модель", чтобы сделать финальные файлы меньше и проще в использовании.
Наконец, перейдите на третью вкладку, называемую "Вывод". Нажмите кнопку "Загрузить параметры для TTS из выходной папки", затем кнопку "Загрузить модель". Теперь вы можете ввести свой текст и нажать "Вывод", чтобы сгенерировать аудио.
Полученное аудио будет значительно лучше, чем при первоначальном методе клонирования 10-секундного аудио, так как модель была настроена на ваш голос. Вы заметите такие вещи, как паузы, звуки "ух" и другие особенности, присутствующие в эталонном аудио.
С этой настроенной моделью вы теперь можете использовать ее сколько угодно, так как нет никаких ограничений. Этот средний метод преобразования текста в речь является отличным компромиссом между усилиями и качеством.
Окончательная комбинация текст-в-речь: XTTS + RVC
Окончательная комбинация текст-в-речь: XTTS + RVC
Теперь, когда мы установили все необходимое программное обеспечение, давайте погрузимся в окончательное сочетание преобразования текста в речь с использованием XTTS и RVC.
Метод A: Простое преобразование
- Внутри веб-интерфейса XTTS введите свой текст и файл эталонного аудио.
- Нажмите "Сгенерировать", чтобы получить исходное аудио преобразования текста в речь.
- Скачайте сгенерированный файл.
- Запустите RVC и выберите модель эталонного голоса.
- Вставьте путь к скачанному файлу и нажмите "Преобразовать".
- Окончательное аудио теперь будет иметь голос эталонной модели.
Метод B: Автоматическое XTTS + RVC
- Перейдите в папку XTTS RVC UI и введите модель голоса RVC (файлы .pth и index).
- В папке "voices" введите образец эталонного голоса (10-секундный аудиоклип).
- Запустите файл .bat и откройте локальный URL-адрес в своем браузере.
- Выберите язык, модель RVC и образец голоса.
- Введите свой текст и нажмите "Отправить".
- Окончательное аудио будет сгенерировано автоматически, объединяя XTTS и RVC.
Метод C: Uber Text-to-Speech
- Перейдите в папку веб-интерфейса XTTS fine-tune и найдите файлы настроенной модели XTTS.
- Вырежьте эти файлы и вставьте их в папку "models" веб-интерфейса XTTS.
- Запустите веб-интерфейс XTTS и выберите пользовательскую модель XTTS.
- Введите свой текст и эталонное аудио, затем нажмите "Сгенерировать".
- Скачайте сгенерированный файл и откройте его в RVC.
- Выберите модель эталонного голоса и нажмите "Преобразовать".
- Окончательное аудио будет представлять собой высшее сочетание преобразования текста в речь, используя пользовательскую модель XTTS и RVC.
Помните, что метод Uber обеспечивает наивысшее качество и аутентичность, но требует больше усилий. Выберите метод, который лучше всего соответствует вашим потребностям и предпочтениям.
Заключение
Заключение
В этом всеобъемлющем руководстве мы исследовали различные методы создания высококачественных, настраиваемых голосов преобразования текста в речь (TTS) на вашем локальном компьютере. От супер-ленивого клонирования голоса за 10 секунд до окончательного Uber-уровня TTS мы охватили ряд методик, чтобы удовлетворить ваши конкретные потребности.
Начиная с самого простого метода, мы продемонстрировали, как использовать веб-интерфейс XTTS для генерации аудио TTS всего из 10 секунд эталонного аудио. Этот быстрый и простой подход позволяет вам создавать персонализированные голоса с минимальными усилиями.
Затем мы углубились в метод TTS среднего уровня, где мы настраивали модель XTTS, используя всего 2 минуты аудио. Этот процесс позволил нам создать более аутентичный и выразительный голос TTS, адаптированный к уникальным характеристикам диктора.
Наконец, мы раскрыли окончательный метод Uber TTS, который сочетает в себе мощь XTTS и RVC (Real-Voice Cloning) для достижения наивысшего уровня качества и аутентичности. Используя нашу пользовательскую обученную модель XTTS и расширенные возможности преобразования голоса RVC, мы смогли сгенерировать аудио TTS, которое очень близко напоминает оригинальный голос.
На протяжении всего руководства мы предоставили пошаговые инструкции и практические советы, чтобы обеспечить плавный процесс установки и реализации. Будь вы новичок или опытный пользователь, теперь у вас есть знания и инструменты для создания собственных высококачественных голосов TTS на вашем локальном компьютере без необходимости в дорогостоящем стороннем программном обеспечении.
Помните, что ресурсы и графика, упомянутые в руководстве, доступны бесплатно на моем Patreon, поэтому обязательно проверьте описание для получения ссылок. Если у вас возникнут какие-либо вопросы или потребуется дополнительная помощь, не стесняйтесь обращаться ко мне через платформу Patreon, где я предоставляю приоритетную поддержку своим покровителям.
Удачных приключений с преобразованием текста в речь и наслаждайтесь силой настраиваемых локальных голосов TTS!
Часто задаваемые вопросы
Часто задаваемые вопросы

