Nhân bản bất kỳ giọng nói AI miễn phí tại chỗ chỉ trong 1 click! Tạo ra các giọng nói tùy chỉnh

Sử dụng trí tuệ nhân tạo để nhân bản bất kỳ giọng nói nào tại chỗ chỉ trong 1 click! Dễ dàng tạo ra các giọng nói tùy chỉnh từ các đoạn âm thanh. Khám phá cách truy cập hàng nghìn mô hình giọng nói đã được huấn luyện trước và tích hợp chúng vào các dự án của bạn một cách trơn tru.

19 tháng 2, 2025

Khám phá sức mạnh của việc nhân bản bất kỳ giọng nói AI nào chỉ với vài đoạn âm thanh trên máy tính của bạn. Mở khóa vô số khả năng, từ Morgan Freeman đọc cho bạn nghe một câu chuyện ngủ trưa đến Gordon Ramsay gào thét những lời lăng mạ khi bạn nấu bữa tối. Bài đăng blog này sẽ chỉ cho bạn cách sử dụng chương trình nguồn mở tuyệt vời RVC để tạo ra các mô hình giọng nói của riêng bạn và chuyển đổi bất kỳ âm thanh nào thành giọng nói của lựa chọn của bạn, tất cả đều miễn phí và cục bộ trên máy của bạn.

Dễ dàng nhân bản bất kỳ giọng nói AI miễn phí bằng cách sử dụng RVC
Cài đặt RVC thủ công cho người dùng nâng cao
Huấn luyện mô hình giọng nói của riêng bạn với RVC
Sử dụng các mô hình giọng nói đã được huấn luyện sẵn với RVC
Kết hợp RVC với chuyển văn bản thành giọng nói để có các chuyển đổi liền mạch
Kết luận

Dễ dàng nhân bản bất kỳ giọng nói AI miễn phí bằng cách sử dụng RVC

Để cài đặt RVC, bạn có hai tùy chọn:

Trình cài đặt một cú nhấp chuột: Nếu bạn là người ủng hộ Patreon, bạn có thể tải xuống trình cài đặt một cú nhấp chuột và chỉ cần nhấp đúp vào tệp để cài đặt RVC.
Cài đặt thủ công:
- Đảm bảo bạn đã cài đặt Python và Git for Windows.
- Tạo một thư mục mới trên máy tính của bạn và mở Command Prompt (CMD) trong thư mục đó.
- Nhân bản kho lưu trữ RVC bằng cách chạy git clone <repository-link> trong CMD.
- Xác định phiên bản PyTorch của bạn bằng cách chạy lệnh được cung cấp.
- Tạo một môi trường Python mới và kích hoạt nó.
- Cài đặt các phụ thuộc cần thiết.
- Tải về các mô hình và tệp cần thiết.
- Khởi chạy tệp go_webui.bat để bắt đầu giao diện web RVC.

Để nhân bản một giọng nói:

Trong tab "Train", nhập tên cho giọng nói nhân bản mới của bạn và đặt tốc độ mẫu mục tiêu.
Cung cấp đường dẫn đến tệp âm thanh đào tạo của bạn (ít nhất 10 phút âm thanh chất lượng cao).
Cấu hình các cài đặt đào tạo, chẳng hạn như số lượng epoch đào tạo, kích thước batch và tần suất lưu.
Nhấp vào "One-Click Training" để bắt đầu quá trình đào tạo.

Khi quá trình đào tạo hoàn tất, bạn có thể sử dụng giọng nói được nhân bản trong tab "Model Inference". Điều chỉnh giá trị chuyển điệu để phù hợp với âm sắc của âm thanh nguồn, chọn đường dẫn đến tệp âm thanh bạn muốn chuyển đổi và nhấp vào "Convert" để tạo ra âm thanh mới với giọng nói được nhân bản.

Ngoài ra, bạn cũng có thể tải về các mô hình giọng nói được đào tạo sẵn từ cộng đồng trên các trang web như voicemodels.com và sử dụng chúng trực tiếp mà không cần đào tạo.

Để sử dụng chuyển văn bản thành giọng nói với giọng nói được nhân bản, bạn có thể sử dụng tiện ích mở rộng Cooked TTS trong giao diện web Text Generation. Tạo âm thanh ban đầu bằng Cooked TTS, sau đó chuyển đổi nó sang giọng nói được nhân bản bằng RVC.

Hãy nhớ rằng, mặc dù RVC cho phép bạn nhân bản bất kỳ giọng nói nào, nhưng điều quan trọng là phải sử dụng công nghệ này một cách có trách nhiệm và đạo đức.

Cài đặt RVC thủ công cho người dùng nâng cao

Để cài đặt RVC thủ công, hãy làm theo các bước sau:

Đảm bảo bạn đã cài đặt Python và Git for Windows trên máy tính của mình.
Tạo một thư mục mới trên máy tính và đặt tên theo ý muốn.
Mở dấu nhắc lệnh (CMD) bằng cách gõ CMD trong đường dẫn thư mục và nhấn Enter.
Trên trang GitHub, nhấp vào "Code", sau đó nhấp vào biểu tượng sao chép để sao chép liên kết kho lưu trữ.
Trong dấu nhắc lệnh, gõ git clone và dán liên kết đã sao chép, sau đó nhấn Enter để nhân bản kho lưu trữ vào máy tính của bạn.
Điều hướng đến thư mục đã nhân bản bằng cách gõ cd theo sau là tên thư mục và nhấn Enter.
Xác định phiên bản PyTorch của bạn bằng cách sao chép và dán lệnh được cung cấp trong mô tả và nhấn Enter. Ghi nhớ phiên bản "CU", vì bạn sẽ cần nó sau này.
Tạo một môi trường Python mới bằng cách gõ python -m venv env và nhấn Enter.
Kích hoạt môi trường bằng lệnh được cung cấp trong mô tả, nhưng đảm bảo thay thế "CU118" bằng phiên bản "CU" chính xác mà bạn đã ghi nhớ trước đó.
Cài đặt các yêu cầu bằng cách chạy lệnh được cung cấp.
Nếu bạn gặp lỗi liên quan đến mô-đun NumPy, hãy gỡ cài đặt nó bằng pip uninstall numpy, sau đó cài đặt lại nó với phiên bản 1.23.5.
Tải về các mô hình bằng cách chạy lệnh python tools/download_models.py.
Tải về các tệp ffmpeg.exe và ff.exe từ liên kết được cung cấp và đặt chúng vào thư mục chính.
Tải về bốn tệp khởi chạy từ liên kết được cung cấp và đặt chúng vào thư mục chính, ghi đè lên bất kỳ tệp hiện có nào.
Khởi chạy tệp go_webui.bat để bắt đầu giao diện web RVC.

Bây giờ bạn đã sẵn sàng để bắt đầu nhân bản giọng nói bằng RVC!

Huấn luyện mô hình giọng nói của riêng bạn với RVC

Để đào tạo mô hình giọng nói riêng của bạn với RVC, hãy làm theo các bước sau:

Chuẩn bị dữ liệu giọng nói của bạn:
- Bạn cần ít nhất 10 phút ghi âm chất lượng cao và sạch của giọng nói của bạn.
- Nếu bạn đang nhân bản giọng nói của người khác, hãy tải về các video phỏng vấn của họ và tách riêng giọng nói của họ bằng một công cụ như Audacity.
Cài đặt RVC:
- Sử dụng trình cài đặt một cú nhấp chuột nếu bạn là người ủng hộ Patreon, hoặc làm theo các bước cài đặt thủ công.
- Đảm bảo bạn có phiên bản CUDA chính xác được cài đặt.
Thiết lập đào tạo:
- Trong giao diện web RVC, hãy đến tab "Train".
- Nhập tên cho giọng nói nhân bản mới của bạn và đặt tốc độ mẫu mục tiêu.
- Chỉ định đường dẫn đến thư mục dữ liệu giọng nói của bạn.
- Chọn các cài đặt đào tạo phù hợp, chẳng hạn như số lượng epoch đào tạo.
Bắt đầu đào tạo:
- Nhấp vào "One Click Training" để bắt đầu quá trình đào tạo mô hình giọng nói.
- Quá trình đào tạo có thể mất khoảng 1-1,5 giờ, tùy thuộc vào lượng dữ liệu và phần cứng của bạn.
Sử dụng mô hình đã được đào tạo:
- Khi quá trình đào tạo hoàn tất, bạn có thể tìm thấy các tệp mô hình đã được đào tạo trong các thư mục "Assets" và "Logs".
- Trong tab "Model Inference", chọn mô hình đã được đào tạo của bạn và điều chỉnh giá trị chuyển điệu để phù hợp với âm thanh nguồn.
- Chuyển đổi bất kỳ tệp âm thanh nào sang giọng nói được nhân bản của bạn bằng cách cung cấp đường dẫn tệp âm thanh và nhấp vào "Convert".
(Tùy chọn) Sử dụng các mô hình giọng nói được đào tạo sẵn:
- Truy cập voicemodels.com để tải về các mô hình giọng nói được đào tạo sẵn do cộng đồng tạo ra.
- Giải nén các tệp mô hình và đặt chúng vào các thư mục phù hợp, sau đó sử dụng chúng trong giao diện web RVC.

Hãy nhớ rằng, chất lượng của giọng nói được nhân bản cuối cùng phụ thuộc vào chất lượng và thời lượng của dữ liệu âm thanh nguồn. Hãy thử nghiệm với các cài đặt và nguồn âm thanh khác nhau để đạt được kết quả tốt nhất.

Sử dụng các mô hình giọng nói đã được huấn luyện sẵn với RVC

Cộng đồng RVC có một bộ sưu tập lớn các mô hình giọng nói được đào tạo sẵn mà bạn có thể tải về và sử dụng trực tiếp, mà không cần phải đào tạo mô hình riêng của mình. Để tìm thấy những mô hình này, bạn có thể truy cập trang web voicemodels.com.

Trên trang web này, bạn có thể tìm kiếm bất kỳ mô hình giọng nói nào bạn muốn, chẳng hạn như một nhân vật hoặc người nổi tiếng cụ thể. Ví dụ, nếu bạn muốn sử dụng mô hình giọng nói của SpongeBob, bạn chỉ cần nhấp vào liên kết để tải về kho lưu trữ đã được đào tạo sẵn.

Khi bạn có kho lưu trữ đã tải về, bạn cần giải nén hai tệp nó chứa: một tệp .pth và một tệp chỉ mục. Tệp .pth cần được đặt trong thư mục assets/wavs, và tệp chỉ mục cần được đặt trong thư mục logs.

Sau đó, bạn có thể quay lại giao diện web RVC, nhấp vào nút "Refresh voice list", và sau đó chọn mô hình giọng nói mà bạn vừa thêm. Bạn có thể điều chỉnh mức octave theo yêu cầu và nhấp vào "Convert" để áp dụng mô hình giọng nói vào tệp âm thanh của bạn.

Quy trình này cho phép bạn sử dụng các mô hình giọng nói được đào tạo sẵn mà không cần phải trải qua toàn bộ quá trình đào tạo, giúp nhanh chóng và dễ dàng hơn trong việc nhân bản giọng nói.

Kết hợp RVC với chuyển văn bản thành giọng nói để có các chuyển đổi liền mạch

Để kết hợp RVC với chuyển văn bản thành giọng nói để có chuyển đổi liền mạch, hãy làm theo các bước sau:

Sử dụng tiện ích mở rộng Cooked TTS trong giao diện web Text Generation WebUI để tạo ra tệp âm thanh ban đầu từ văn bản mong muốn.
Trong tiện ích mở rộng Cooked TTS, đảm bảo rằng tin nhắn đầu tiên trong trò chuyện là văn bản bạn muốn chuyển đổi thành âm thanh.
Khi tệp âm thanh được tạo, hãy tải nó xuống và sử dụng nó làm đầu vào cho quá trình chuyển đổi RVC.
Trong giao diện web RVC, chọn mô hình giọng nói bạn muốn sử dụng cho quá trình chuyển đổi.
Điều chỉnh giá trị pitch/transpose theo yêu cầu để phù hợp với giọng nói mục tiêu.
Nhấp vào "Convert" để tạo ra tệp âm thanh cuối cùng với giọng nói được nhân bản.

Phương pháp này cho phép bạn tận dụng khả năng chuyển văn bản thành giọng nói của giao diện web Text Generation WebUI để tạo ra âm thanh ban đầu, sau đó sử dụng RVC để chuyển đổi âm thanh đó sang giọng nói được nhân bản mong muốn. Điều này cung cấp một quy trình làm việc liền mạch để t

Câu hỏi thường gặp

RVC là gì và nó có thể được sử dụng để nhân bản giọng nói như thế nào?

Cần bao nhiêu âm thanh để nhân bản giọng nói bằng cách sử dụng RVC?

Các bước để cài đặt và sử dụng RVC thủ công là gì?

Tôi có thể sử dụng các mô hình giọng nói đã được huấn luyện trước thay vì huấn luyện riêng của tôi không?

Làm thế nào để sử dụng giọng nói được nhân bản cho chuyển văn bản thành giọng nói?

Tạo bạn gái AI của bạn

Xây dựng người bạn đồng hành lý tưởng của bạn với AI Girlfriend Builder của chúng tôi