Раскройте силу локального текст-в-речь AI: создавайте невероятные голоса бесплатно

Раскройте силу локального AI-синтеза речи: создавайте невероятные голоса бесплатно. Откройте для себя 4 метода создания высококачественных, настраиваемых голосов синтеза речи на вашем локальном компьютере. От быстрого клонирования до точной настройки моделей, создайте идеальный голос AI для ваших проектов.

24 февраля 2025 г.

party-gif

Создайте свои собственные пользовательские голоса для преобразования текста в речь локально и бесплатно с помощью этого пошагового руководства. Узнайте, как создавать высококачественные голоса AI, используя простые методы клонирования и тонкую настройку моделей, без необходимости полагаться на дорогостоящие сторонние услуги.

Самый простой текст-в-речь: быстрое клонирование с 10 секундами аудио

Чтобы использовать быстрый метод клонирования с 10 секундами аудио:

  1. Перейдите в папку xtts-webui и запустите файл start-xtts-webui.bat. Это загрузит необходимые файлы и запустит веб-интерфейс.

  2. В веб-интерфейсе введите текст, который вы хотите, чтобы ваш голос прочитал. Ограничения по количеству символов нет.

  3. Выберите желаемый язык из выпадающего списка.

  4. Загрузите аудиоклип длительностью от 5 до 10 секунд. Он будет использован для клонирования голоса.

  5. Нажмите "Сгенерировать", и через несколько секунд у вас будет готовый аудиофайл для использования.

Средний текст-в-речь: тонкая настройка вашей собственной модели XTTS

Теперь перейдем к среднему методу преобразования текста в речь, где мы будем обучать нашу собственную модель XTTS с нуля. Этот метод требует всего 2 минуты аудио, что значительно меньше, чем типичные 10-20 минут, необходимые для получения хороших результатов.

Сначала перейдите в папку веб-интерфейса XTTS fine-tune и запустите файл start.bat. Это даст вам локальный URL-адрес, который вы можете открыть в своем браузере.

Для этого метода вам понадобится аудиофайл длительностью 2 минуты. Если вы, как и я, чувствуете себя ленивым, вы можете просто взять 30-секундный аудиоклип и несколько раз повторить его в Audacity, чтобы создать 2-минутный файл.

Когда у вас будет аудиофайл, загрузите его в веб-интерфейс. Убедитесь, что выбран правильный язык (в данном случае английский). Затем нажмите кнопку "Шаг 1: Создать набор данных". В зависимости от длины вашего аудио, процесс форматирования может занять минуту или меньше.

Затем перейдите ко второй вкладке. Вы можете оставить настройки как есть, но, возможно, захотите увеличить количество эпох с 6 по умолчанию до 10 или 12 для лучших результатов. Убедитесь, что вы используете версию 2.0.2, так как она является лучшей.

Нажмите кнопку "Запустить обучение", и обучение начнется. Как только оно будет завершено, нажмите кнопку "Оптимизировать модель", чтобы сделать финальные файлы меньше и проще в использовании.

Наконец, перейдите на третью вкладку, называемую "Вывод". Нажмите кнопку "Загрузить параметры для TTS из выходной папки", затем кнопку "Загрузить модель". Теперь вы можете ввести свой текст и нажать "Вывод", чтобы сгенерировать аудио.

Полученное аудио будет значительно лучше, чем при первоначальном методе клонирования 10-секундного аудио, так как модель была настроена на ваш голос. Вы заметите такие вещи, как паузы, звуки "ух" и другие особенности, присутствующие в эталонном аудио.

С этой настроенной моделью вы теперь можете использовать ее сколько угодно, так как нет никаких ограничений. Этот средний метод преобразования текста в речь является отличным компромиссом между усилиями и качеством.

Окончательная комбинация текст-в-речь: XTTS + RVC

Теперь, когда мы установили все необходимое программное обеспечение, давайте погрузимся в окончательное сочетание преобразования текста в речь с использованием XTTS и RVC.

Метод A: Простое преобразование

  1. Внутри веб-интерфейса XTTS введите свой текст и файл эталонного аудио.
  2. Нажмите "Сгенерировать", чтобы получить исходное аудио преобразования текста в речь.
  3. Скачайте сгенерированный файл.
  4. Запустите RVC и выберите модель эталонного голоса.
  5. Вставьте путь к скачанному файлу и нажмите "Преобразовать".
  6. Окончательное аудио теперь будет иметь голос эталонной модели.

Метод B: Автоматическое XTTS + RVC

  1. Перейдите в папку XTTS RVC UI и введите модель голоса RVC (файлы .pth и index).
  2. В папке "voices" введите образец эталонного голоса (10-секундный аудиоклип).
  3. Запустите файл .bat и откройте локальный URL-адрес в своем браузере.
  4. Выберите язык, модель RVC и образец голоса.
  5. Введите свой текст и нажмите "Отправить".
  6. Окончательное аудио будет сгенерировано автоматически, объединяя XTTS и RVC.

Метод C: Uber Text-to-Speech

  1. Перейдите в папку веб-интерфейса XTTS fine-tune и найдите файлы настроенной модели XTTS.
  2. Вырежьте эти файлы и вставьте их в папку "models" веб-интерфейса XTTS.
  3. Запустите веб-интерфейс XTTS и выберите пользовательскую модель XTTS.
  4. Введите свой текст и эталонное аудио, затем нажмите "Сгенерировать".
  5. Скачайте сгенерированный файл и откройте его в RVC.
  6. Выберите модель эталонного голоса и нажмите "Преобразовать".
  7. Окончательное аудио будет представлять собой высшее сочетание преобразования текста в речь, используя пользовательскую модель XTTS и RVC.

Помните, что метод Uber обеспечивает наивысшее качество и аутентичность, но требует больше усилий. Выберите метод, который лучше всего соответствует вашим потребностям и предпочтениям.

Заключение

В этом всеобъемлющем руководстве мы исследовали различные методы создания высококачественных, настраиваемых голосов преобразования текста в речь (TTS) на вашем локальном компьютере. От супер-ленивого клонирования голоса за 10 секунд до окончательного Uber-уровня TTS мы охватили ряд методик, чтобы удовлетворить ваши конкретные потребности.

Начиная с самого простого метода, мы продемонстрировали, как использовать веб-интерфейс XTTS для генерации аудио TTS всего из 10 секунд эталонного аудио. Этот быстрый и простой подход позволяет вам создавать персонализированные голоса с минимальными усилиями.

Затем мы углубились в метод TTS среднего уровня, где мы настраивали модель XTTS, используя всего 2 минуты аудио. Этот процесс позволил нам создать более аутентичный и выразительный голос TTS, адаптированный к уникальным характеристикам диктора.

Наконец, мы раскрыли окончательный метод Uber TTS, который сочетает в себе мощь XTTS и RVC (Real-Voice Cloning) для достижения наивысшего уровня качества и аутентичности. Используя нашу пользовательскую обученную модель XTTS и расширенные возможности преобразования голоса RVC, мы смогли сгенерировать аудио TTS, которое очень близко напоминает оригинальный голос.

На протяжении всего руководства мы предоставили пошаговые инструкции и практические советы, чтобы обеспечить плавный процесс установки и реализации. Будь вы новичок или опытный пользователь, теперь у вас есть знания и инструменты для создания собственных высококачественных голосов TTS на вашем локальном компьютере без необходимости в дорогостоящем стороннем программном обеспечении.

Помните, что ресурсы и графика, упомянутые в руководстве, доступны бесплатно на моем Patreon, поэтому обязательно проверьте описание для получения ссылок. Если у вас возникнут какие-либо вопросы или потребуется дополнительная помощь, не стесняйтесь обращаться ко мне через платформу Patreon, где я предоставляю приоритетную поддержку своим покровителям.

Удачных приключений с преобразованием текста в речь и наслаждайтесь силой настраиваемых локальных голосов TTS!

Часто задаваемые вопросы