1번 클릭으로 무료로 로컬에서 모든 AI 음성 복제하기! 맞춤형 음성 만들기

1번 클릭으로 로컬에서 모든 음성을 복제할 수 있는 AI를 사용하세요! 오디오 클립에서 맞춤형 음성을 쉽게 만들 수 있습니다. 수천 개의 사전 학습된 음성 모델에 액세스하고 프로젝트에 원활하게 통합하는 방법을 발견하세요.

2025년 2월 24일

party-gif

컴퓨터에서 몇 개의 오디오 클립으로 AI 음성을 복제할 수 있는 힘을 발견하세요. 모건 프리먼이 당신에게 잠자리 이야기를 읽어주거나 고든 램지가 저녁 식사를 하면서 욕설을 하는 등 무한한 가능성을 열어드립니다. 이 블로그 게시물에서는 무료로 로컬에서 자신만의 음성 모델을 만들고 오디오를 원하는 목소리로 변환할 수 있는 놀라운 오픈 소스 프로그램 RVC를 사용하는 방법을 보여드립니다.

무료로 RVC를 사용하여 AI 음성을 쉽게 복제하기

RVC를 설치하는 방법은 두 가지가 있습니다:

  1. 원클릭 설치기: Patreon 후원자인 경우, 원클릭 설치기를 다운로드하여 파일을 더블 클릭하면 RVC를 설치할 수 있습니다.

  2. 수동 설치:

    • Python과 Windows용 Git이 설치되어 있는지 확인하세요.
    • 컴퓨터에 새 폴더를 만들고 해당 폴더에서 명령 프롬프트(CMD)를 엽니다.
    • CMD에서 git clone <repository-link>를 실행하여 RVC 리포지토리를 복제합니다.
    • 제공된 명령어를 실행하여 PyTorch 버전을 확인합니다.
    • 새 Python 환경을 만들고 활성화합니다.
    • 필요한 종속성을 설치합니다.
    • 필요한 모델과 파일을 다운로드합니다.
    • go_webui.bat 파일을 실행하여 RVC 웹 UI를 시작합니다.

음성 복제하기:

  1. "Train" 탭에서 새 음성 복제의 이름을 입력하고 대상 샘플링 레이트를 설정합니다.
  2. 훈련 오디오 파일의 경로(최소 10분 이상의 고품질 오디오)를 제공합니다.
  3. 훈련 에포크 수, 배치 크기, 저장 빈도 등 훈련 설정을 구성합니다.
  4. "One-Click Training"을 클릭하여 훈련 프로세스를 시작합니다.

훈련이 완료되면 "Model Inference" 탭에서 복제된 음성을 사용할 수 있습니다. 소스 오디오의 피치와 일치하도록 전치 값을 조정하고, 변환할 오디오 파일의 경로를 선택한 후 "Convert"를 클릭하여 새 오디오를 생성합니다.

또한 voicemodels.com과 같은 웹사이트에서 사전 훈련된 음성 모델을 다운로드하여 직접 사용할 수 있습니다.

복제된 음성으로 텍스트 음성 변환을 사용하려면 Text Generation 웹 UI의 Cooked TTS 확장을 활용할 수 있습니다. Cooked TTS로 초기 오디오를 생성한 후 RVC를 사용하여 복제된 음성으로 변환하세요.

RVC를 통해 어떤 음성이든 복제할 수 있지만, 이 기술을 책임감 있고 윤리적으로 사용해야 합니다.

고급 사용자를 위한 RVC 수동 설치

RVC를 수동으로 설치하려면 다음 단계를 따르세요:

  1. 컴퓨터에 Python과 Windows용 Git이 설치되어 있는지 확인하세요.
  2. 컴퓨터에 새 폴더를 만들고 원하는 이름을 지정하세요.
  3. 폴더 경로에 CMD를 입력하고 Enter 키를 눌러 명령 프롬프트(CMD)를 엽니다.
  4. GitHub 페이지에서 "Code"를 클릭한 후 복사 아이콘을 클릭하여 리포지토리 링크를 복사합니다.
  5. 명령 프롬프트에 git clone을 입력하고 복사한 링크를 붙여넣은 후 Enter 키를 눌러 리포지토리를 복제합니다.
  6. cd 명령어와 폴더 이름을 입력하고 Enter 키를 눌러 복제된 폴더로 이동합니다.
  7. 설명에 제공된 명령어를 복사하여 붙여넣고 Enter 키를 눌러 PyTorch 버전을 확인합니다. "CU" 버전을 기록해 두세요.
  8. python -m venv env 명령어를 실행하여 새 Python 환경을 만듭니다.
  9. 설명에 제공된 명령어를 실행하여 환경을 활성화하되, "CU118"을 앞서 기록한 "CU" 버전으로 바꿔야 합니다.
  10. 제공된 명령어를 실행하여 필요한 패키지를 설치합니다.
  11. NumPy 모듈 관련 오류가 발생하면 pip uninstall numpy로 제거한 후 1.23.5 버전을 다시 설치하세요.
  12. python tools/download_models.py 명령어를 실행하여 모델을 다운로드합니다.
  13. 제공된 링크에서 ffmpeg.exeff.exe 파일을 다운로드하여 메인 폴더에 놓습니다.
  14. 제공된 링크에서 4개의 실행 파일을 다운로드하여 메인 폴더에 놓고 기존 파일을 덮어씁니다.
  15. go_webui.bat 파일을 실행하여 RVC 웹 UI를 시작합니다.

이제 RVC를 사용하여 음성을 복제할 준비가 되었습니다!

RVC로 자신만의 음성 모델 학습하기

RVC로 자신의 음성 모델을 훈련하려면 다음 단계를 따르세요:

  1. 음성 데이터 준비:

    • 최소 10분 이상의 고품질, 깨끗한 음성 녹음이 필요합니다.
    • 다른 사람의 음성을 복제하려면 인터뷰 동영상을 다운로드하고 Audacity와 같은 도구를 사용하여 음성을 분리하세요.
  2. RVC 설치:

    • Patreon 후원자인 경우 원클릭 설치기를 사용하거나, 수동 설치 단계를 따르세요.
    • 올바른 CUDA 버전이 설치되어 있는지 확인하세요.
  3. 훈련 설정:

    • RVC 웹 UI의 "Train" 탭으로 이동합니다.
    • 새 음성 복제의 이름을 입력하고 대상 샘플링 레이트를 설정합니다.
    • 음성 데이터 폴더의 경로를 지정합니다.
    • 훈련 에포크 수 등 적절한 훈련 설정을 선택합니다.
  4. 훈련 시작:

    • "One Click Training"을 클릭하여 음성 모델 훈련을 시작합니다.
    • 데이터 양과 하드웨어에 따라 약 1-1.5시간 정도 소요됩니다.
  5. 훈련된 모델 사용:

    • 훈련이 완료되면 "Assets"와 "Logs" 폴더에서 훈련된 모델 파일을 찾을 수 있습니다.
    • "Model Inference" 탭에서 훈련된 모델을 선택하고 소스 오디오의 피치에 맞게 전치 값을 조정합니다.
    • 오디오 파일 경로를 제공하고 "Convert"를 클릭하여 복제된 음성으로 변환할 수 있습니다.
  6. (선택 사항) 사전 훈련된 음성 모델 사용:

    • voicemodels.com에서 커뮤니티가 제공하는 사전 훈련된 음성 모델을 다운로드할 수 있습니다.
    • 모델 파일을 압축 해제하여 적절한 폴더에 놓은 후 RVC 웹 UI에서 사용할 수 있습니다.

최종 복제된 음성의 품질은 소스 오디오 데이터의 품질과 지속 시간에 따라 달라집니다. 다양한 설정과 오디오 소스를 실험하여 최상의 결과를 얻으세요.

RVC로 사전 학습된 음성 모델 사용하기

RVC 커뮤니티에는 직접 다운로드하여 사용할 수 있는 사전 훈련된 음성 모델이 많이 있습니다. 이러한 모델을 찾아보려면 voicemodels.com 웹사이트를 방문하세요.

이 웹사이트에서 원하는 음성 모델, 예를 들어 특정 캐릭터나 유명인의 음성 모델을 검색할 수 있습니다. SpongeBob 음성 모델을 사용하고 싶다면 해당 링크를 클릭하여 사전 훈련된 아카이브를 다운로드할 수 있습니다.

다운로드한 아카이브를 압축 해제하면 .pth 파일과 인덱스 파일이 포함되어 있습니다. .pth 파일은 assets/wavs 폴더에, 인덱스 파일은 logs 폴더에 놓아야 합니다.

그 다음 RVC 웹 UI로 돌아가 "Refresh voice list" 버튼을 클릭하면 방금 추가한 음성 모델을 선택할 수 있습니다. 필요에 따라 옥타브 수준을 조정한 후 "Convert"를 클릭하여 오디오에 음성 모델을 적용할 수 있습니다.

이 과정을 통해 직접 훈련하지 않고도 사전 훈련된 음성 모델을 사용할 수 있어 음성 복제가 훨씬 더 빠르고 쉬워집니다.

RVC와 텍스트 음성 변환을 결합하여 원활한 변환 수행하기

RVC와 텍스트 음성 변환을 결합하여 seamless한 변환을 수행하려면 다음 단계를 따르세요:

  1. Text Generation WebUI의 Cooked TTS 확장을 사용하여 원하는 텍스트에서 초기 오디오 파일을 생성합니다.
  2. Cooked TTS 확장에서 채팅의 첫 번째 메시지가 변환할 텍스트인지 확인합니다.
  3. 오디오 파일이 생성되면 다운로드하고 RVC 변환 프로세스의 입력으로 사용합니다.
  4. RVC 웹 UI에서 사용할 음성 모델을 선택합니다.
  5. 필요에 따라 피치/전치 값을 조정하여 대상 음성과 일치시킵니다.
  6. "Convert"를 클릭하여 복제된 음성으로 최종 오디오 파일을 생성합니다.

이 접근 방식을 통해 Text Generation WebUI의 텍스트 음성 변환 기능을 활용하여 초기 오디오를 생성하고, RVC를 사용하여 해당 오디오를 원하는 복제된 음성으로 변환할 수 있습니다. 이는 텍스트 입력에서 음성 복제된 오디오를 생성하는 seamless한 워크플로를 제공합니다.

결론

이 포괄적인 가이드에서는 오픈소스 프로그램인 RVC(Real Voice Cloning)의 강력한 기능을 살펴보았습니다. RVC를 사용하면 어떤 음성이든 복제하고 오디오 파일을 해당 새 음성으로 변환할 수 있습니다. 원클릭 설치기와 수동 설치 방법을 통해 RVC를 설치하는 단계별 프로세스를 다루었습니다.

고품질 오디오 샘플을 준비하고, 자신만의 음성 모델을 훈련하는 방법, 그리고 RVC 커뮤니티의 사전 훈련된 모델을 활용하는 방법을 학습했습니다. 음성 복제 기능은 Morgan Freeman이 자장가를 읽어주거나 Gordon Ramsay가 요리하는 동안 욕설을 내뱉는 등 다양한 가능성을 열어줍니다.

또한 RVC와 텍스트 음성 변환 도구를 통합하는 방법을 다루었습니다. 이를 통해 광범위한 오디오 녹음 없이도 복제된 음성으로 오디오를 생성할 수 있습니다. 이러한 seamless한 통합은 가상 환경에서의 역할 연기 등 더 창의적인 응용 프로그램을 가능하게 합니다.

RVC의 기능이 인상적이지만, 이 기술을 책임감 있고 윤리적으로 사용해야 합니다. 개인의 프라이버시와 권리를 존중하고

자주하는 질문