Giải phóng sức mạnh của Trí tuệ nhân tạo chuyển văn bản thành giọng nói cục bộ: Tạo ra những giọng nói tuyệt vời hoàn toàn miễn phí
Phát huy sức mạnh của Trí tuệ Nhân tạo chuyển đổi văn bản sang giọng nói cục bộ: Tạo ra những giọng nói đáng kinh ngạc hoàn toàn miễn phí. Khám phá 4 phương pháp để tạo ra những giọng nói chuyển đổi văn bản sang giọng nói chất lượng cao và có thể tùy chỉnh trên máy tính cục bộ của bạn. Từ việc nhân bản nhanh chóng đến việc tinh chỉnh các mô hình, hãy tạo ra giọng nói AI hoàn hảo cho các dự án của bạn.
14 tháng 2, 2025

Tạo ra các giọng nói tùy chỉnh của riêng bạn cục bộ miễn phí với hướng dẫn từng bước này. Khám phá cách tạo ra các giọng nói AI chất lượng cao bằng cách sử dụng các kỹ thuật nhân bản đơn giản và các mô hình được tinh chỉnh, tất cả mà không cần phụ thuộc vào các dịch vụ của bên thứ ba tốn kém.
Chuyển văn bản sang giọng nói dễ nhất: Nhân bản nhanh chóng với 10 giây âm thanh
Chuyển văn bản sang giọng nói trung bình: Tinh chỉnh mô hình XTTS của riêng bạn
Sự kết hợp chuyển văn bản sang giọng nói tối thượng: XTTS + RVC
Kết luận
Chuyển văn bản sang giọng nói dễ nhất: Nhân bản nhanh chóng với 10 giây âm thanh
Chuyển văn bản sang giọng nói dễ nhất: Nhân bản nhanh chóng với 10 giây âm thanh
Để sử dụng phương pháp sao chép nhanh với 10 giây âm thanh:
-
Đi đến thư mục
xtts-webui
và khởi chạy tệpstart-xtts-webui.bat
. Điều này sẽ tải về các tệp cần thiết và khởi chạy giao diện web. -
Trong giao diện web, nhập văn bản bạn muốn giọng nói đọc. Không có giới hạn ký tự.
-
Chọn ngôn ngữ mong muốn từ danh sách thả xuống.
-
Tải lên một đoạn âm thanh dài từ 5-10 giây. Đây sẽ được sử dụng để sao chép giọng nói.
-
Nhấp vào "Tạo" và trong vài giây, bạn sẽ có tệp âm thanh đã tạo sẵn để sử dụng.
Chuyển văn bản sang giọng nói trung bình: Tinh chỉnh mô hình XTTS của riêng bạn
Chuyển văn bản sang giọng nói trung bình: Tinh chỉnh mô hình XTTS của riêng bạn
Bây giờ, hãy chuyển sang phương pháp chuyển văn bản thành giọng nói ở mức độ trung bình, nơi chúng ta sẽ tự đào tạo mô hình XTTS của riêng mình từ đầu. Phương pháp này chỉ cần 2 phút âm thanh, ít hơn nhiều so với 10-20 phút thường cần để có kết quả tốt.
Đầu tiên, hãy đi đến thư mục giao diện web XTTS fine-tune và khởi chạy tệp start.bat
. Điều này sẽ cung cấp cho bạn một URL cục bộ mà bạn có thể mở trong trình duyệt của mình.
Đối với phương pháp này, bạn sẽ cần một tệp âm thanh có 2 phút âm thanh. Nếu bạn cảm thấy lười như tôi, bạn có thể chỉ cần lấy một đoạn âm thanh 30 giây và lặp lại nhiều lần trong Audacity để tạo ra một tệp 2 phút.
Khi bạn có tệp âm thanh, hãy tải lên trong giao diện web. Đảm bảo chọn đúng ngôn ngữ (trong trường hợp này là Tiếng Anh). Sau đó, nhấp vào nút "Bước 1: Tạo tập dữ liệu". Tùy thuộc vào độ dài của âm thanh, quá trình định dạng có thể mất một phút hoặc ít hơn.
Tiếp theo, chuyển sang tab thứ hai. Bạn có thể để các cài đặt như hiện tại, nhưng bạn có thể muốn tăng số epoch từ mặc định 6 lên 10 hoặc 12 để có kết quả tốt hơn. Đảm bảo bạn đang sử dụng phiên bản 2.0.2, vì đây là phiên bản tốt nhất.
Nhấp vào nút "Chạy quá trình đào tạo" và quá trình đào tạo sẽ bắt đầu. Khi hoàn thành, nhấp vào nút "Tối ưu hóa mô hình" để làm các tệp cuối cùng nhỏ hơn và dễ sử dụng hơn.
Cuối cùng, chuyển sang tab thứ ba có tên "Inference". Nhấp vào nút "Tải tham số cho TTS từ thư mục đầu ra", sau đó nhấp vào nút "Tải mô hình". Bây giờ, bạn có thể nhập văn bản của mình và nhấp vào "Inference" để tạo ra âm thanh.
Âm thanh kết quả sẽ tốt hơn nhiều so với phương pháp sao chép 10 giây ban đầu, vì mô hình đã được tinh chỉnh theo giọng nói của bạn. Bạn sẽ nhận thấy những thứ như dừng, âm "uh" và các đặc điểm khác có mặt trong âm thanh tham chiếu.
Với mô hình tinh chỉnh này, bây giờ bạn có thể sử dụng nó bao nhiêu tùy thích, vì không có giới hạn. Phương pháp chuyển văn bản thành giọng nói ở mức độ trung bình này là một sự folmang giữa nỗ lực và chất lượng.
Sự kết hợp chuyển văn bản sang giọng nói tối thượng: XTTS + RVC
Sự kết hợp chuyển văn bản sang giọng nói tối thượng: XTTS + RVC
Bây giờ chúng ta đã cài đặt tất cả phần mềm cần thiết, hãy cùng tìm hiểu về sự kết hợp tối đa của chuyển văn bản thành giọng nói bằng XTTS và RVC.
Phương pháp A: Chuyển đổi đơn giản
- Bên trong giao diện web XTTS, nhập văn bản của bạn và tệp âm thanh tham chiếu.
- Nhấp vào "Tạo" để nhận được âm thanh chuyển văn bản thành giọng nói ban đầu.
- Tải tệp đã tạo xuống.
- Khởi chạy RVC và chọn mô hình giọng nói tham chiếu.
- Dán đường dẫn của tệp đã tải xuống và nhấp vào "Chuyển đổi".
- Âm thanh cuối cùng sẽ có giọng nói của mô hình tham chiếu.
Phương pháp B: XTTS + RVC tự động
- Đi đến thư mục XTTS RVC UI và nhập mô hình giọng nói RVC (các tệp .pth và index).
- Trong thư mục "voices", nhập mẫu giọng nói tham chiếu (đoạn âm thanh 10 giây).
- Khởi chạy tệp .bat và mở URL cục bộ trong trình duyệt của bạn.
- Chọn ngôn ngữ, mô hình RVC và mẫu giọng nói.
- Nhập văn bản của bạn và nhấp vào "Gửi".
- Âm thanh cuối cùng sẽ được tạo ra tự động, kết hợp XTTS và RVC.
Phương pháp C: Chuyển văn bản thành giọng nói cấp cao
- Đi đến thư mục giao diện web XTTS fine-tune và tìm các tệp mô hình XTTS đã tinh chỉnh.
- Cắt các tệp này và dán chúng vào thư mục "models" của giao diện web XTTS.
- Khởi chạy giao diện web XTTS và chọn mô hình XTTS tùy chỉnh.
- Nhập văn bản của bạn và âm thanh tham chiếu, sau đó nhấp vào "Tạo".
- Tải tệp đã tạo và mở nó trong RVC.
- Chọn mô hình giọng nói tham chiếu và nhấp vào "Chuyển đổi".
- Âm thanh cuối cùng sẽ là sự kết hợp chuyển văn bản thành giọng nói cấp cao nhất, sử dụng mô hình XTTS tùy chỉnh và RVC.
Hãy nhớ rằng, phương pháp Cấp cao cung cấp chất lượng và tính xác thực cao nhất, nhưng nó yêu cầu nhiều nỗ lực hơn. Hãy chọn phương pháp phù hợp nhất với nhu cầu và sở thích của bạn.
Kết luận
Kết luận
Trong hướng dẫn toàn diện này, chúng tôi đã khám phá các phương pháp khác nhau để tạo ra các giọng nói chuyển văn bản thành giọng nói (TTS) chất lượng cao, tùy chỉnh trên máy tính cục bộ của bạn. Từ việc sao chép giọng nói siêu lười 10 giây đến chuyển văn bản thành giọng nói cấp cao nhất, chúng tôi đã bao phủ một loạt các kỹ thuật để phù hợp với nhu cầu cụ thể của bạn.
Bắt đầu với phương pháp đơn giản nhất, chúng tôi đã演示cách sử dụng giao diện web XTTS để tạo ra âm thanh TTS từ chỉ 10 giây âm thanh tham chiếu. Cách tiếp cận nhanh chóng và dễ dàng này cho phép bạn tạo ra các giọng nói cá nhân hóa với nỗ lực tối thiểu.
Tiếp theo, chúng tôi đi sâu vào phương pháp TTS cấp độ trung bình, nơi chúng tôi tinh chỉnh mô hình XTTS bằng chỉ 2 phút âm thanh. Quá trình này cho phép chúng tôi tạo ra một giọng nói TTS chân thực và biểu cảm hơn, được điều chỉnh theo các đặc điểm độc đáo của người nói.
Cuối cùng, chúng tôi đã tiết lộ phương pháp chuyển văn bản thành giọng nói cấp cao nhất, kết hợp sức mạnh của XTTS và RVC (Real-Voice Cloning) để đạt được mức chất lượng và tính xác thực cao nhất. Bằng cách khai thác mô hình XTTS được đào tạo tùy chỉnh của chúng tôi và khả năng chuyển đổi giọng nói tiên tiến của RVC, chúng tôi đã có thể tạo ra âm thanh TTS gần giống với người nói gốc.
Trong suốt hướng dẫn, chúng tôi đã cung cấp hướng dẫn từng bước và các mẹo thực tế để đảm bảo quá trình cài đặt và triển khai diễn ra trơn tru. Bất kể bạn là người mới bắt đầu hay người dùng có kinh nghiệm, bây giờ bạn đã có kiến thức và công cụ để tạo ra các giọng nói TTS chất lượng cao trên máy tính cục bộ của mình, mà không cần phần mềm của bên thứ ba đắt tiền.
Hãy nhớ rằng, các tài nguyên và hình ảnh được đề cập trong hướng dẫn có sẵn miễn phí trên Patreon của tôi, vì vậy hãy chắc chắn kiểm tra mô tả để có các liên kết. Và nếu bạn có bất kỳ câu hỏi nào hoặc cần được hỗ trợ thêm, đừng ngần ngại liên hệ với tôi thông qua nền tảng Patreon, nơi tôi cung cấp hỗ trợ ưu tiên cho các nhà tài trợ của tôi.
Chúc bạn những chuyến phiêu lưu chuyển văn bản thành giọng nói vui vẻ và tận hưởng sức mạnh của các giọng nói TTS được tùy chỉnh tại địa phương!
Câu hỏi thường gặp
Câu hỏi thường gặp

