Skip to content

Latest commit

 

History

History
241 lines (189 loc) · 13.1 KB

README.tw.md

File metadata and controls

241 lines (189 loc) · 13.1 KB

Voice-Pro: 終極AI語音轉換和多語言翻譯工具 🔊

🌍 한국어English中文简体中文繁體日本語DeutschEspañolPortuguês

GitHub Release

🎙️ 強大的AI驅動Web應用程式,用於YouTube影片處理、語音識別、翻譯和多語言支援的文字到語音轉換

Voice-Pro是一款革新多媒體內容製作的先進網頁應用程式。它將YouTube影片下載、音訊分離、語音辨識、翻譯和文字轉語音(TTS)整合到一個強大的工具中,為創作者、研究人員和多語言專家提供理想的解決方案。

  • 🔊 頂級語音辨識:WhisperFaster-WhisperWhisper-Timestamped
  • 🎤 零樣本聲音克隆:F5-TTSE2-TTSCosyVoice
  • 📢 多語言文字轉語音:Edge-TTSkokoro
  • 🎥 YouTube處理和音訊提取:yt-dlp
  • 🌍 100多種語言即時翻譯:Deep-Translator
  • 🔇 專業級人聲分離:UVR5
  • 🔥 AI翻唱製作:RVC

作為ElevenLabs的強大替代方案,Voice-Pro為播客主持人、開發者和創作者提供進階語音解決方案。

⚠️ 注意事項

  • Voice-Pro已更新至v2.x版本(Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
  • 🆓 免費試用版支援最長60秒的媒體處理
  • 🔥 新增AI翻唱功能
  • 🎤 新增CosyVoicekokoro支援
  • ⏳ 首次執行時需下載CozyVoice2-0.5B (9GB),根據網路速度可能需要1小時以上
  • 🎧 聲音克隆用的語音樣本將持續更新
  • 提示:
    • 從 v1.x 升級到 v2.x:不可能。因此,建議刪除 installer_files 資料夾並執行最新版本的 start.bat。
    • 從 v2.x 升級到 v2.x:可能。下載最新程式碼後,執行 update.bat。
    • 首次使用者:請參考以下安裝方法。
    • 問題解決:在大多數情況下,刪除 installer_files 資料夾並依序執行 configure.bat 和 start.bat 即可解決問題。

🚄 示範

配音工作室標籤頁:轉錄、翻譯和TTS

voice-pro-demo-v1.6.7-1080p.mp4

工作室標籤頁的綜合媒體處理工作流程示範:從YouTube影片下載到AI語音分離、Whisper自動字幕、多語言翻譯,再到使用F5-TTS進行專業配音的一站式媒體轉換過程。

F5-TTS-Multi標籤頁:播客製作

f5-tts-demo-elon-zuckerberg-1115-3.mp4

F5-TTS的創新AI聲音克隆技術示範:精確模仿馬克·祖克柏和伊隆·馬斯克的真實聲音,創建全新內容的進階語音轉換技術展示。

AI翻唱標籤頁

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

製作川普版本的IU《Cupid》、金光石《想念的人》、《士兵的信》。

即時翻譯標籤頁:即時辨識和翻譯

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

即時多語言翻譯功能示範:即時擷取BBC新聞內容,產生即時字幕,並立即翻譯成其他語言的創新多語言媒體處理過程。

⭐ 主要功能

1. 配音工作室

  • YouTube影片下載和音訊提取
  • 使用MDX-NetDemucs進行語音分離
  • 支援100多種語言的語音辨識和翻譯

2. 語音技術

  • 語音轉文字: WhisperFaster-WhisperWhisper-Timestamped
  • 文字轉語音:
    • Edge-TTS:支援100多種語言,400多種聲音
    • E2-TTSF5-TTSCosyVoice:零樣本克隆
    • kokoro:在HuggingFace TTS Arena中排名第二
  • 🔥 AI翻唱(語音轉語音): 使用UVR5移除人聲,使用RVC進行變聲

3. 即時翻譯

  • 即時語音辨識
  • 即時多語言翻譯
  • 可自訂音訊輸入

🤖 網頁介面

配音工作室標籤頁

  • 整合中心:YouTube下載、降噪、字幕、翻譯、TTS
  • 支援所有ffmpeg相容格式
  • 輸出選項:WAV、FLAC、MP3
  • 支援100多種語言的字幕和辨識
  • 可調節TTS的速度、音量、音調

多語言語音轉換和字幕生成網頁介面

Whisper字幕標籤頁

  • 專用字幕:90多種語言
  • 影片整合字幕顯示
  • 單字級醒目提示和降噪選項

翻譯標籤頁

  • 100多種語言翻譯
  • 支援字幕檔案(ASS、SSA、SRT等)
  • 即時語音辨識和翻譯

即時語音辨識和翻譯網頁介面

語音生成標籤頁

  • 選項:Edge-TTSF5-TTSCosyVoicekokoro
  • 使用名人聲音製作播客和多語言支援

使用語音克隆技術製作播客的網頁介面

🔥 AI翻唱標籤頁

使用語音克隆技術製作播客的網頁介面

💻 系統需求

  • 作業系統: Windows 10/11(64位元)※不支援Linux/Mac
  • 顯示卡: 支援CUDA 12.4的NVIDIA顯示卡(建議)
  • 顯示記憶體: 4GB以上(建議8GB以上)
  • 記憶體: 4GB以上
  • 儲存空間: 20GB以上可用空間
  • 網路: 必需

📀 安裝

使用configure.batstart.bat輕鬆安裝Voice-Pro。

1. 準備套件

  • GitHub Release下載最新發布版本(Source code (zip)
git clone https://github.com/abus-aikorea/voice-pro.git

2. 安裝和執行

  1. 🚀 configure.bat
    • 安裝git、ffmpeg、CUDA(使用NVIDIA GPU時)
    • 首次執行一次;需要網路,可能需要1小時以上
    • 不要關閉命令視窗
  2. 🚀 start.bat
    • 執行Voice-Pro網頁介面
    • 首次執行時安裝相依性(可能需要1小時以上)
    • 如果出現問題,刪除installer_files後重新執行

3. 更新

  • 🚀 update.bat:更新Python環境(比重新安裝更快)

4. 解除安裝

  • 執行uninstall.bat或刪除資料夾(可攜式安裝)

❓使用技巧

瀏覽器沒有自動啟動時

  • 關閉Windows命令視窗,重新執行start.bat,或
  • 直接啟動瀏覽器,在網址列輸入Windows命令視窗顯示的網址(例如**http://127.0.0.1:7892**)

出現CUDA記憶體不足錯誤時

  • 在Windows工作管理員-效能標籤中檢查GPU記憶體狀態
  • 將降噪等級設定為0或1。降噪等級2需要8GB以上的GPU記憶體
  • 將計算類型設定為int類型。float類型品質更好但需要更多GPU記憶體

如何提高字幕品質?

  • 字幕品質通常隨著使用更大的Whisper模型而提高,但並不總是如此。large > medium > small > base > tiny
  • 在計算類型中,float類型效能更好。int類型透過模型量化降低GPU使用量並提高速度,但效能較差
  • 提高降噪等級可以更多地去除背景音,只將剩餘的語音用於語音辨識。但不總是能保證更好的結果

📢 注意事項

Windows Defender可能會顯示不受信任應用程式的警告,並阻止Voice-Pro繼續執行。 如果SmartScreen安全等級設定為「警告」,請點選「更多資訊」後點選「仍要執行」。 如果SmartScreen設定為「阻止」等級,則沒有可以執行安裝的按鈕。在這種情況下,開啟start.bat檔案的屬性,勾選「解除封鎖」,套用變更後重新執行start.bat檔案。

如果Windows Defender錯誤地將批次檔案識別為特洛伊木馬,這通常被稱為「誤判」。要解決這個問題,可以採取以下步驟:

  1. 檔案例外處理:可以在Windows Defender中設定特定檔案或程序跳過安全檢查。請按照以下步驟操作:

    • 點選「開始」按鈕,進入「設定」
    • 點選「更新與安全性」
    • 選擇「Windows安全性」,進入「病毒與威脅防護」
    • 點選「管理病毒與威脅防護設定」
    • 在「病毒與威脅防護設定」中選擇「新增或移除排除項目」
    • 選擇「檔案或資料夾」,找到相關批次檔案並新增為例外
  2. 暫時停用Windows Defender:這可以作為臨時解決方案。但使用此方法時,請注意電腦可能會暴露於其他威脅中。

  3. 向防毒軟體回報問題:如果您確信該檔案不是特洛伊木馬,可以向Microsoft回報為誤判。Microsoft會審查後採取必要的措施。

🚨 通知

  • 此儲存庫提供 Voice-Pro 的免費試用版
  • Voice-Pro 的免費試用版允許您處理長達 60 秒的媒體。
  • Voice-Pro 的正式版本可透過 ABUS 官方網站 (https://abuskorea.imweb.me) 購買。

☕ 貢獻

  • 如果您想參與並幫助我們進行此專案,請隨時建立一個 Issues
  • 如果出現問題,請提交一個 Pull requests 以改進此專案。
  • 歡迎任何類型的貢獻。
  • 有關購買、商業夥伴關係、技術調整、投資和其他相關事宜的諮詢,請透過電子郵件 ([email protected]) 與我們聯繫。
  • 如果您喜歡這個專案,請給這個儲存庫加星號。我們將非常感謝。 ⭐⭐⭐
  • 您可以在這裡透過捐贈支持 Voice-Pro:

"Buy Me A Coffee"

📬 聯絡方式

👍 YouTube

🙏 鳴謝

©️ 版權資訊

by ABUS