🌍 한국어 ∙ English ∙ 中文简体 ∙ 中文繁體 ∙ 日本語 ∙ Deutsch ∙ Español ∙ Português
Voice-Proは、マルチメディアコンテンツ制作に革新をもたらす最先端のウェブアプリです。YouTube動画のダウンロード、音声分離、音声認識、翻訳、テキストから音声への変換(TTS)を1つの強力なツールに統合し、クリエイター、研究者、多言語専門家にとって理想的なソリューションを提供します。
- 🔊 最高レベルの音声認識: Whisper, Faster-Whisper, Whisper-Timestamped
- 🎤 ゼロショット音声クローニング: F5-TTS, E2-TTS, CosyVoice
- 📢 多言語テキスト音声変換: Edge-TTS, kokoro
- 🎥 YouTube処理&オーディオ抽出: yt-dlp
- 🌍 100以上の言語での即時翻訳: Deep-Translator
- 🔇 プロ級ボーカル分離: UVR5
- 🔥 AIカバー作成: RVC
ElevenLabsの強力な代替として、Voice-Proはポッドキャスター、開発者、クリエイターに先進的な音声ソリューションを提供します。
- Voice-Proはv2.xにアップデートされました(Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
- 🆓 無料体験版は最大60秒のメディア処理に対応
- 🔥 AIカバー機能が追加されました
- 🎤 CosyVoiceとkokoroのサポートが追加されました
- ⏳ 初回起動時に**CozyVoice2-0.5B (9GB)**をダウンロードします。ネットワーク速度によっては1時間以上かかる場合があります
- 🎧 音声クローニング用のボイスサンプルは継続的に更新予定
- ご案内:
- v1.x から v2.x へのアップグレード: 不可能. したがって、installer_files フォルダを削除し、最新バージョンの start.bat を実行することを推奨します。
- v2.x から v2.x へのアップグレード: 可能. 最新のコードをダウンロードした後、update.bat を実行します。
- 初めてのユーザー: 以下のインストール方法を参照してください。
- トラブルシューティング: ほとんどの場合、installer_files フォルダを削除し、configure.bat と start.bat を順番に実行すると解決します。
voice-pro-demo-v1.6.7-1080p.mp4
スタジオタブの総合的なメディア処理ワークフローデモ: YouTube動画のダウンロードからAIによる音声分離、Whisper自動字幕、多言語翻訳、F5-TTSを使用したプロフェッショナルなダビングまで、一貫したメディア変換プロセスを紹介します。
f5-tts-demo-elon-zuckerberg-1115-3.mp4
F5-TTSの革新的なAI音声クローニング技術デモ: マーク・ザッカーバーグやイーロン・マスクの実際の声を精密に模倣し、まったく新しいコンテンツを作成する高度な音声変換技術を披露します。
321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4
トランプバージョンのIU『Cupid』、キム・グァンソク『恋しい人』、『二等兵の手紙』を制作します。
voice-pro-demo-v1.5.7-h264-1080p-live.mp4
リアルタイム多言語翻訳機能デモ: BBCニュースコンテンツを即座にキャプチャし、リアルタイムで字幕を生成、他の言語に即時翻訳する革新的な多言語メディア処理プロセスを紹介します。
- YouTube動画ダウンロード&オーディオ抽出
- MDX-NetおよびDemucsによる音声分離
- 100以上の言語での音声認識と翻訳をサポート
- 音声からテキスト: Whisper, Faster-Whisper, Whisper-Timestamped
- テキストから音声:
- Edge-TTS: 100以上の言語、400以上の声
- E2-TTS, F5-TTS, CosyVoice: ゼロショットクローニング
- kokoro: HuggingFace TTS Arenaで2位
- 🔥 AIカバー(音声から音声): UVR5でボーカル除去、RVCで変調
- 即時音声認識
- リアルタイム多言語翻訳
- カスタマイズ可能なオーディオ入力
- 統合ハブ: YouTubeダウンロード、ノイズ除去、字幕、翻訳、TTS
- ffmpeg互換フォーマットすべて対応
- 出力オプション: WAV, FLAC, MP3
- 100以上の言語での字幕と認識
- 速度、ボリューム、ピッチ調整可能なTTS
- 字幕専用: 90以上の言語
- ビデオと統合された字幕表示
- 単語単位のハイライトとノイズ除去オプション
- 100以上の言語翻訳
- 字幕ファイル対応(ASS、SSA、SRTなど)
- リアルタイム音声認識と翻訳
- オプション: Edge-TTS, F5-TTS, CosyVoice, kokoro
- 有名人声でのポッドキャストと多言語サポート
- ボーカル除去: MDX-Net, Demucs
- 音声変調: RVC
- AIボイスはDiscord AI Hubでダウンロード、または[email protected]にリクエスト
- OS: Windows 10/11(64ビット) ※ Linux/Mac非対応
- GPU: CUDA 12.4対応NVIDIA(推奨)
- VRAM: 4GB以上(8GB以上推奨)
- RAM: 4GB以上
- ストレージ: 20GB以上の空き容量
- インターネット: 必須
configure.batとstart.batでVoice-Proを簡単にインストールできます。
git clone https://github.com/abus-aikorea/voice-pro.git
- 🚀 configure.bat
- git、ffmpeg、CUDAをインストール(NVIDIA GPU使用時)
- 初回のみ実行。インターネット必要、1時間以上かかる場合あり
- コマンドウィンドウを閉じない
- 🚀 start.bat
- Voice-ProウェブUIを起動
- 初回実行時に依存関係をインストール(1時間以上かかる場合あり)
- 問題発生時はinstaller_filesを削除後再実行
- 🚀 update.bat: Python環境を更新(再インストールより高速)
- uninstall.bat実行、またはフォルダ削除(ポータブルインストール)
- Windowsコマンドウィンドウを閉じ、start.batを再実行するか
- ブラウザを直接起動し、コマンドウィンドウに表示されるアドレス(例: **http://127.0.0.1:7892**)を入力
- Windowsタスクマネージャーの「パフォーマンス」タブでGPUメモリを確認
- ノイズ除去レベルを0または1に設定(レベル2は8GB以上のGPUメモリが必要)
- 計算タイプをintに設定(floatは品質が高いがGPUメモリを多く使用)
- 大きなWhisperモデルほど字幕品質が向上する傾向あり(large > medium > small > base > tiny)、ただし必ずしもそうではない
- 計算タイプではfloatが優れた性能を発揮。intはモデル量子化でGPU使用量を減らし速度を向上させるが、性能は低下
- ノイズ除去レベルを上げると背景音が除去され、残った音声のみが認識に使用されるが、常に良い結果を保証するわけではない
Windows DefenderがVoice-Proを信頼できないアプリとして警告し、実行を制限する場合があります。
- SmartScreen「警告」設定: 「詳細情報」をクリックし、「それでも実行」を選択
- SmartScreen「ブロック」設定: start.batのプロパティで「ブロック解除」をチェックし、再実行
Windows Defenderがバッチファイルをトロイの木馬と誤認識する場合、これは「偽陽性(False Positive)」と呼ばれることが多いです。解決策は以下の通りです。
- ファイル例外処理:
- 「スタート」ボタンをクリックし、「設定」に移動
- 「更新とセキュリティ」をクリック
- 「Windowsセキュリティ」から「ウイルスと脅威の防止」に進む
- 「ウイルスと脅威の防止設定の管理」をクリック
- 「ウイルスと脅威の防止設定」で「例外の追加」を選択
- 「ファイルまたはフォルダ」を選び、対象のバッチファイルを追加
- Windows Defenderの一時無効化: 一時的な解決策。ただし、他の脅威にさらされる可能性があるため注意が必要
- アンチウイルスソフトへの報告: ファイルが安全と確信できる場合、Microsoftに偽陽性として報告可能。Microsoftが確認後対応
- このリポジトリはVoice-Proの無料トライアルを提供します。
- Voice-Proの無料トライアル版では、最大60秒のメディアを処理できます。
- Voice-Proの公式バージョンは、ABUS公式サイト(https://abuskorea.imweb.me)から購入できます。
- このプロジェクトに参加して協力したい場合は、お気軽にIssuesを作成してください。
- 問題が発生した場合は、このプロジェクトを改善するためにPull requestsを提出してください。
- どのような貢献も歓迎します。
- 購入、ビジネスパートナーシップ、技術チューニング、投資、その他の関連事項に関するお問い合わせは、メール([email protected])でお問い合わせください。
- このプロジェクトが気に入ったら、このリポジトリに星を付けてください。大変感謝いたします。 ⭐⭐⭐
- こちらから寄付でVoice-Proを支援できます。
- メール: [email protected]
- ホームページ(韓国語): https://abuskorea.imweb.me
- Amazon: US | Japan | Singapore | UAE
- ネイバー: ソフトウェア | ソリューション
- Demucs: https://github.com/facebookresearch/demucs
- yt-dlp: https://github.com/yt-dlp/yt-dlp
- gradio: https://github.com/gradio-app/gradio
- edge-TTS: https://github.com/rany2/edge-tts
- F5-TTS: https://github.com/SWivid/F5-TTS.git
- openai-whisper: https://github.com/openai/whisper
- faster-whisper: https://github.com/SYSTRAN/faster-whisper
- whisper-timestamped: https://github.com/linto-ai/whisper-timestamped
- RVC-Project: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- UVR5: https://github.com/Anjok07/ultimatevocalremovergui
by ABUS