🌍 한국어 ∙ English ∙ 中文简体 ∙ 中文繁體 ∙ 日本語 ∙ Deutsch ∙ Español ∙ Português
Voice-Pro는 멀티미디어 콘텐츠 제작을 혁신하는 최첨단 웹 앱입니다. YouTube 비디오 다운로드, 음성 분리, 음성 인식, 번역, 텍스트-음성 변환(TTS)을 하나의 강력한 도구로 통합하여 창작자, 연구자, 다국어 전문가에게 이상적인 솔루션을 제공합니다.
- 🔊 최고 수준의 음성 인식: Whisper, Faster-Whisper, Whisper-Timestamped
- 🎤 제로샷 음성 복제: F5-TTS, E2-TTS, CosyVoice
- 📢 다국어 텍스트-음성 변환: Edge-TTS, kokoro
- 🎥 YouTube 처리 및 오디오 추출: yt-dlp
- 🌍 100개 이상 언어 즉시 번역: Deep-Translator
- 🔇 전문가 수준의 보컬 분리: UVR5
- 🔥 AI 커버 제작: RVC
ElevenLabs의 강력한 대안으로, Voice-Pro는 팟캐스터, 개발자, 창작자들에게 고급 음성 솔루션을 제공합니다.
- Voice-Pro가 v2.x로 업데이트 되었습니다 (Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
- 🆓 무료 체험판은 최대 60초 분량의 미디어를 지원합니다.
- 🔥 AI 커버 기능이 추가 되었습니다.
- 🎤 CosyVoice 및 kokoro 지원이 추가되었습니다.
- ⏳ 첫 실행 시 CozyVoice2-0.5B (9GB) 를 다운로드합니다. 네트워크 속도에 따라 1시간 이상 소요될 수 있음
- 🎧 음성 복제용 보이스 샘플은 지속적으로 업데이트 될 예정입니다.
- 안내:
- v1.x 에서 v2.x 로 업그레이드: 불가능. 따라서, installer_files 폴더 삭제 후, 최신 버전의 start.bat 실행 권장.
- v2.x 에서 v2.x 로 업그레이드: 가능. 최신 코드를 다운로드 받은 후, update.bat 실행.
- 처음 사용자: 아래 설치방법을 참고하세요.
- 문제해결: 대부분의 경우, installer_files 폴더 삭제 후, configure.bat 와 start.bat 를 차례로 실행하면 해결 됩니다.
voice-pro-demo-v1.6.7-1080p.mp4
스튜디오 탭의 종합 미디어 처리 워크플로우 데모: YouTube 비디오 다운로드부터 AI 기반 음성 분리, Whisper 자동 자막, 다국어 번역, F5-TTS를 사용한 전문 더빙까지 원스톱 미디어 변환 과정을 보여줍니다.
f5-tts-demo-elon-zuckerberg-1115-3.mp4
F5-TTS의 혁신적인 AI 음성 복제 기술 데모: 마크 저커버그와 일론 머스크의 실제 목소리를 정밀하게 모방하여 완전히 새로운 콘텐츠를 만드는 고급 음성 변환 기술을 보여줍니다.
321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4
트럼프 버전의 IU 'Cupid', 김광석 '그리운 사람', '이병의 편지'를 제작합니다.
voice-pro-demo-v1.5.7-h264-1080p-live.mp4
실시간 다국어 번역 기능 데모: BBC 뉴스 콘텐츠를 즉시 캡처하고, 실시간 자막을 생성하며, 즉시 다른 언어로 번역하는 혁신적인 다국어 미디어 처리 과정을 보여줍니다.
- YouTube 비디오 다운로드 및 오디오 추출
- MDX-Net 및 Demucs를 이용한 음성 분리
- 100개 이상의 언어에 대한 음성 인식 및 번역 지원
- 음성-텍스트: Whisper, Faster-Whisper, Whisper-Timestamped
- 텍스트-음성 변환:
- Edge-TTS: 100개 이상 언어, 400개 이상 목소리
- E2-TTS, F5-TTS, CosyVoice: 제로샷 복제
- kokoro: HuggingFace TTS Arena에서 2위
- 🔥 AI 커버 (음성-음성): UVR5로 보컬 제거, RVC로 변조
- 즉각적인 음성 인식
- 실시간 다국어 번역
- 사용자 지정 가능한 오디오 입력
- 통합 허브: YouTube 다운로드, 소음 제거, 자막, 번역, TTS
- ffmpeg 호환 형식 모두 지원
- 출력 옵션: WAV, FLAC, MP3
- 100개 이상 언어에 대한 자막 및 인식
- 속도, 볼륨, 피치 조절 가능한 TTS
- 자막 전용: 90개 이상 언어
- 비디오와 통합된 자막 표시
- 단어 단위 하이라이트 및 소음 제거 옵션
- 100개 이상 언어 번역
- 자막 파일 지원 (ASS, SSA, SRT 등)
- 실시간 음성 인식 및 번역
- 옵션: Edge-TTS, F5-TTS, CosyVoice, kokoro
- 유명인 목소리로 팟캐스트 및 다국어 지원
- 보컬 제거: MDX-Net, Demucs
- 음성 변조: RVC
- AI 목소리는 Discord AI Hub에서 다운로드하거나 [email protected]으로 요청
- OS: Windows 10/11 (64비트) ※ Linux/Mac 미지원
- GPU: CUDA 12.4 지원 NVIDIA (권장)
- VRAM: 4GB 이상 (8GB 이상 권장)
- RAM: 4GB 이상
- 저장소: 20GB 이상 여유 공간
- 인터넷: 필수
configure.bat 및 start.bat으로 Voice-Pro를 쉽게 설치하세요.
git clone https://github.com/abus-aikorea/voice-pro.git
- 🚀 configure.bat
- git, ffmpeg, CUDA 설치 (NVIDIA GPU 사용 시)
- 최초 1회 실행; 인터넷 필요, 1시간 이상 소요 가능
- 명령 창 닫지 않기
- 🚀 start.bat
- Voice-Pro 웹UI 실행
- 첫 실행 시 의존성 설치 (1시간 이상 소요 가능)
- 문제 발생 시 installer_files 삭제 후 재실행
- 🚀 update.bat: Python 환경 갱신 (재설치보다 빠름)
- uninstall.bat 실행 또는 폴더 삭제 (휴대용 설치)
- Windows-Commnad 창을 종료하고, start.bat 을 다시 실행하거나
- Browser를 직접 실행하고, Windows-Command 창에 표시된 주소(예, http://127.0.0.1:7892 )를 주소창에 입력합니다.
- 윈도우 작업관리자 - 성능 탭에서 GPU 메모리 상태를 확인하세요.
- Denoise 레벨을 0 또는 1 로 설정하세요. Denoise 레벨 2 는 8GB 이상의 GPU 메모리를 필요로 합니다.
- Compute Type 을 int 타입으로 설정하세요. float 타입의 품질이 더 좋지만 더 많은 GPU 메모리를 요구합니다.
- 자막의 품질은 더 큰 Whisper 모델을 사용할 수록 좋아지는 경향은 있지만, 꼭 그런것은 아닙니다. large > medium > small > base > tiny
- Compute Type 중에서는 float 타입의 성능이 좋습니다. int 타입은 모델 양자화를 통해 GPU사용량을 낮추고 속도를 높인 모델입니다. 반면, 성능은 떨어집니다.
- Denoise 레벨을 높이면 배경음을 더 많이 제거하고, 남아있는 보이스만 음성인식에 사용하게 됩니다. 항상 좋은 결과를 보장하지는 않습니다.
Windows Defender가 신뢰할 수 없는 애플리케이션에 대한 경고를 표시하고 Voice-Pro의 추가 실행을 허용하지 않을 수 있습니다. SmartScreen 보안 수준이 "경고"로 설정되어 있다면 "More info"를 클릭한 후 "어쨌든 실행"을 클릭하세요. SmartScreen이 "차단" 수준으로 설정되어 있으면 설치를 실행할 수 있는 버튼이 없습니다. 이 경우, start.bat 파일의 속성을 열고 "차단 해제"를 체크한 후 변경 사항을 적용하고 다시 start.bat 파일을 실행하세요.
Windows Defender가 실수로 batch 파일을 트로이 목마로 인식하는 경우, 이는 종종 'False Positive'라고 불립니다. 이런 문제를 해결하기 위해서는 다음과 같은 과정을 거칠 수 있습니다.
- 파일 예외 처리: Windows Defender에서 특정 파일이나 프로세스가 보안 검사를 건너뛰도록 설정할 수 있습니다. 이를 위해 아래의 단계를 따르세요.
- '시작' 버튼을 클릭하고 '설정'으로 이동하세요.
- '업데이트 및 보안'을 클릭하세요.
- 'Windows 보안'을 선택하고 '바이러스 및 위협 보호'로 이동하세요.
- '바이러스 및 위협 보호 설정 관리'를 클릭하세요.
- '바이러스 및 위협 보호 설정'에서 '예외 추가'를 선택하세요.
- '파일 또는 폴더'를 선택하고, 문제의 batch 파일을 찾아 예외로 추가하세요.
- Windows Defender를 잠시 비활성화: 이 방법은 임시적인 해결책이 될 수 있습니다. 하지만 이 방법을 사용할 경우, 컴퓨터가 다른 위협에 노출될 수 있으므로 주의가 필요합니다.
- 백신 소프트웨어에 문제 제보: 만약 파일이 트로이 목마가 아니라는 확신이 있다면, Microsoft에 False Positive로 제보할 수 있습니다. Microsoft는 이를 검토한 후 필요한 조치를 취할 것입니다.
- 이 저장소는 Voice-Pro의 무료 체험판을 제공합니다.
- Voice-Pro의 무료 체험판 버전은 최대 60초의 미디어를 처리할 수 있습니다.
- Voice-Pro의 공식 버전은 ABUS 공식 웹사이트(https://abuskorea.imweb.me)를 통해 구매할 수 있습니다.
- 이 프로젝트에 참여하고 저희를 돕고 싶으시다면, 언제든지 Issues를 생성해주세요.
- 문제가 발생하면, 이 프로젝트를 개선하기 위해 Pull requests를 제출해주세요.
- 모든 유형의 기여를 환영합니다.
- 구매, 비즈니스 파트너십, 기술 튜닝, 투자 및 기타 관련 문의는 이메일([email protected])로 문의해주세요.
- 이 프로젝트가 마음에 드시면, 이 저장소에 별표를 눌러주세요. 저희에게 매우 큰 도움이 될 것입니다. ⭐⭐⭐
- 여기에서 기부를 통해 Voice-Pro를 후원할 수 있습니다.
- 이메일: [email protected]
- 홈페이지 (한국어): https://abuskorea.imweb.me
- Amazon: US | Japan | Singapore | UAE
- 네이버: 소프트웨어 | 솔루션
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- gradio: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
- openai-whisper: https://github.com/openai/whisper
- faster-whisper: https://github.com/SYSTRAN/faster-whisper
- whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
- RVC-Project: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- UVR5: https://github.com/Anjok07/ultimatevocalremovergui
by ABUS