🌍 한국어 ∙ English ∙ 中文简体 ∙ 中文繁體 ∙ 日本語 ∙ Deutsch ∙ Español ∙ Português
Voice-Pro是一款革新多媒體內容製作的先進網頁應用程式。它將YouTube影片下載、音訊分離、語音辨識、翻譯和文字轉語音(TTS)整合到一個強大的工具中,為創作者、研究人員和多語言專家提供理想的解決方案。
- 🔊 頂級語音辨識:Whisper、Faster-Whisper、Whisper-Timestamped
- 🎤 零樣本聲音克隆:F5-TTS、E2-TTS、CosyVoice
- 📢 多語言文字轉語音:Edge-TTS、kokoro
- 🎥 YouTube處理和音訊提取:yt-dlp
- 🌍 100多種語言即時翻譯:Deep-Translator
- 🔇 專業級人聲分離:UVR5
- 🔥 AI翻唱製作:RVC
作為ElevenLabs的強大替代方案,Voice-Pro為播客主持人、開發者和創作者提供進階語音解決方案。
- Voice-Pro已更新至v2.x版本(Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
- 🆓 免費試用版支援最長60秒的媒體處理
- 🔥 新增AI翻唱功能
- 🎤 新增CosyVoice和kokoro支援
- ⏳ 首次執行時需下載CozyVoice2-0.5B (9GB),根據網路速度可能需要1小時以上
- 🎧 聲音克隆用的語音樣本將持續更新
- 提示:
- 從 v1.x 升級到 v2.x:不可能。因此,建議刪除 installer_files 資料夾並執行最新版本的 start.bat。
- 從 v2.x 升級到 v2.x:可能。下載最新程式碼後,執行 update.bat。
- 首次使用者:請參考以下安裝方法。
- 問題解決:在大多數情況下,刪除 installer_files 資料夾並依序執行 configure.bat 和 start.bat 即可解決問題。
voice-pro-demo-v1.6.7-1080p.mp4
工作室標籤頁的綜合媒體處理工作流程示範:從YouTube影片下載到AI語音分離、Whisper自動字幕、多語言翻譯,再到使用F5-TTS進行專業配音的一站式媒體轉換過程。
f5-tts-demo-elon-zuckerberg-1115-3.mp4
F5-TTS的創新AI聲音克隆技術示範:精確模仿馬克·祖克柏和伊隆·馬斯克的真實聲音,創建全新內容的進階語音轉換技術展示。
321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4
製作川普版本的IU《Cupid》、金光石《想念的人》、《士兵的信》。
voice-pro-demo-v1.5.7-h264-1080p-live.mp4
即時多語言翻譯功能示範:即時擷取BBC新聞內容,產生即時字幕,並立即翻譯成其他語言的創新多語言媒體處理過程。
- YouTube影片下載和音訊提取
- 使用MDX-Net和Demucs進行語音分離
- 支援100多種語言的語音辨識和翻譯
- 語音轉文字: Whisper、Faster-Whisper、Whisper-Timestamped
- 文字轉語音:
- Edge-TTS:支援100多種語言,400多種聲音
- E2-TTS、F5-TTS、CosyVoice:零樣本克隆
- kokoro:在HuggingFace TTS Arena中排名第二
- 🔥 AI翻唱(語音轉語音): 使用UVR5移除人聲,使用RVC進行變聲
- 即時語音辨識
- 即時多語言翻譯
- 可自訂音訊輸入
- 整合中心:YouTube下載、降噪、字幕、翻譯、TTS
- 支援所有ffmpeg相容格式
- 輸出選項:WAV、FLAC、MP3
- 支援100多種語言的字幕和辨識
- 可調節TTS的速度、音量、音調
- 專用字幕:90多種語言
- 影片整合字幕顯示
- 單字級醒目提示和降噪選項
- 100多種語言翻譯
- 支援字幕檔案(ASS、SSA、SRT等)
- 即時語音辨識和翻譯
- 選項:Edge-TTS、F5-TTS、CosyVoice、kokoro
- 使用名人聲音製作播客和多語言支援
- 人聲移除:MDX-Net、Demucs
- 語音變調:RVC
- AI聲音可從Discord AI Hub下載或發郵件至[email protected]請求
- 作業系統: Windows 10/11(64位元)※不支援Linux/Mac
- 顯示卡: 支援CUDA 12.4的NVIDIA顯示卡(建議)
- 顯示記憶體: 4GB以上(建議8GB以上)
- 記憶體: 4GB以上
- 儲存空間: 20GB以上可用空間
- 網路: 必需
使用configure.bat和start.bat輕鬆安裝Voice-Pro。
git clone https://github.com/abus-aikorea/voice-pro.git
- 🚀 configure.bat
- 安裝git、ffmpeg、CUDA(使用NVIDIA GPU時)
- 首次執行一次;需要網路,可能需要1小時以上
- 不要關閉命令視窗
- 🚀 start.bat
- 執行Voice-Pro網頁介面
- 首次執行時安裝相依性(可能需要1小時以上)
- 如果出現問題,刪除installer_files後重新執行
- 🚀 update.bat:更新Python環境(比重新安裝更快)
- 執行uninstall.bat或刪除資料夾(可攜式安裝)
- 關閉Windows命令視窗,重新執行start.bat,或
- 直接啟動瀏覽器,在網址列輸入Windows命令視窗顯示的網址(例如**http://127.0.0.1:7892**)
- 在Windows工作管理員-效能標籤中檢查GPU記憶體狀態
- 將降噪等級設定為0或1。降噪等級2需要8GB以上的GPU記憶體
- 將計算類型設定為int類型。float類型品質更好但需要更多GPU記憶體
- 字幕品質通常隨著使用更大的Whisper模型而提高,但並不總是如此。large > medium > small > base > tiny
- 在計算類型中,float類型效能更好。int類型透過模型量化降低GPU使用量並提高速度,但效能較差
- 提高降噪等級可以更多地去除背景音,只將剩餘的語音用於語音辨識。但不總是能保證更好的結果
Windows Defender可能會顯示不受信任應用程式的警告,並阻止Voice-Pro繼續執行。 如果SmartScreen安全等級設定為「警告」,請點選「更多資訊」後點選「仍要執行」。 如果SmartScreen設定為「阻止」等級,則沒有可以執行安裝的按鈕。在這種情況下,開啟start.bat檔案的屬性,勾選「解除封鎖」,套用變更後重新執行start.bat檔案。
如果Windows Defender錯誤地將批次檔案識別為特洛伊木馬,這通常被稱為「誤判」。要解決這個問題,可以採取以下步驟:
-
檔案例外處理:可以在Windows Defender中設定特定檔案或程序跳過安全檢查。請按照以下步驟操作:
- 點選「開始」按鈕,進入「設定」
- 點選「更新與安全性」
- 選擇「Windows安全性」,進入「病毒與威脅防護」
- 點選「管理病毒與威脅防護設定」
- 在「病毒與威脅防護設定」中選擇「新增或移除排除項目」
- 選擇「檔案或資料夾」,找到相關批次檔案並新增為例外
-
暫時停用Windows Defender:這可以作為臨時解決方案。但使用此方法時,請注意電腦可能會暴露於其他威脅中。
-
向防毒軟體回報問題:如果您確信該檔案不是特洛伊木馬,可以向Microsoft回報為誤判。Microsoft會審查後採取必要的措施。
- 此儲存庫提供 Voice-Pro 的免費試用版。
- Voice-Pro 的免費試用版允許您處理長達 60 秒的媒體。
- Voice-Pro 的正式版本可透過 ABUS 官方網站 (https://abuskorea.imweb.me) 購買。
- 如果您想參與並幫助我們進行此專案,請隨時建立一個 Issues。
- 如果出現問題,請提交一個 Pull requests 以改進此專案。
- 歡迎任何類型的貢獻。
- 有關購買、商業夥伴關係、技術調整、投資和其他相關事宜的諮詢,請透過電子郵件 ([email protected]) 與我們聯繫。
- 如果您喜歡這個專案,請給這個儲存庫加星號。我們將非常感謝。 ⭐⭐⭐
- 您可以在這裡透過捐贈支持 Voice-Pro:
- 電子郵件:[email protected]
- 主頁(韓語):https://abuskorea.imweb.me
- Amazon:US | Japan | Singapore | UAE
- 韓國Naver:軟體 | 解決方案
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- gradio: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
- openai-whisper: https://github.com/openai/whisper
- faster-whisper: https://github.com/SYSTRAN/faster-whisper
- whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
- RVC-Project: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- UVR5: https://github.com/Anjok07/ultimatevocalremovergui
by ABUS