Skip to content

Latest commit

 

History

History
235 lines (187 loc) · 15.3 KB

README.jpn.md

File metadata and controls

235 lines (187 loc) · 15.3 KB

Voice-Pro: 究極のAI音声変換&多言語翻訳ツール 🔊

🌍 한국어English中文简体中文繁體日本語DeutschEspañolPortuguês

GitHub Release

🎙️ YouTubeビデオ処理、音声認識、翻訳、多言語サポートテキスト音声変換のための強力なAIベースWebアプリケーション

Voice-Proは、マルチメディアコンテンツ制作に革新をもたらす最先端のウェブアプリです。YouTube動画のダウンロード、音声分離、音声認識、翻訳、テキストから音声への変換(TTS)を1つの強力なツールに統合し、クリエイター、研究者、多言語専門家にとって理想的なソリューションを提供します。

  • 🔊 最高レベルの音声認識: Whisper, Faster-Whisper, Whisper-Timestamped
  • 🎤 ゼロショット音声クローニング: F5-TTS, E2-TTS, CosyVoice
  • 📢 多言語テキスト音声変換: Edge-TTS, kokoro
  • 🎥 YouTube処理&オーディオ抽出: yt-dlp
  • 🌍 100以上の言語での即時翻訳: Deep-Translator
  • 🔇 プロ級ボーカル分離: UVR5
  • 🔥 AIカバー作成: RVC

ElevenLabsの強力な代替として、Voice-Proはポッドキャスター、開発者、クリエイターに先進的な音声ソリューションを提供します。

⚠️ 注意事項

  • Voice-Proはv2.xにアップデートされました(Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
  • 🆓 無料体験版は最大60秒のメディア処理に対応
  • 🔥 AIカバー機能が追加されました
  • 🎤 CosyVoicekokoroのサポートが追加されました
  • ⏳ 初回起動時に**CozyVoice2-0.5B (9GB)**をダウンロードします。ネットワーク速度によっては1時間以上かかる場合があります
  • 🎧 音声クローニング用のボイスサンプルは継続的に更新予定
  • ご案内:
    • v1.x から v2.x へのアップグレード: 不可能. したがって、installer_files フォルダを削除し、最新バージョンの start.bat を実行することを推奨します。
    • v2.x から v2.x へのアップグレード: 可能. 最新のコードをダウンロードした後、update.bat を実行します。
    • 初めてのユーザー: 以下のインストール方法を参照してください。
    • トラブルシューティング: ほとんどの場合、installer_files フォルダを削除し、configure.bat と start.bat を順番に実行すると解決します。

🚄 デモ

ダビングスタジオタブ: 文字起こし、翻訳、TTS

voice-pro-demo-v1.6.7-1080p.mp4

スタジオタブの総合的なメディア処理ワークフローデモ: YouTube動画のダウンロードからAIによる音声分離、Whisper自動字幕、多言語翻訳、F5-TTSを使用したプロフェッショナルなダビングまで、一貫したメディア変換プロセスを紹介します。

F5-TTS-Multiタブ: ポッドキャスト制作

f5-tts-demo-elon-zuckerberg-1115-3.mp4

F5-TTSの革新的なAI音声クローニング技術デモ: マーク・ザッカーバーグやイーロン・マスクの実際の声を精密に模倣し、まったく新しいコンテンツを作成する高度な音声変換技術を披露します。

AIカバータブ

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

トランプバージョンのIU『Cupid』、キム・グァンソク『恋しい人』、『二等兵の手紙』を制作します。

リアルタイム翻訳タブ: リアルタイム認識と翻訳

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

リアルタイム多言語翻訳機能デモ: BBCニュースコンテンツを即座にキャプチャし、リアルタイムで字幕を生成、他の言語に即時翻訳する革新的な多言語メディア処理プロセスを紹介します。

⭐ 主な機能

1. ダビングスタジオ

  • YouTube動画ダウンロード&オーディオ抽出
  • MDX-NetおよびDemucsによる音声分離
  • 100以上の言語での音声認識と翻訳をサポート

2. 音声技術

  • 音声からテキスト: Whisper, Faster-Whisper, Whisper-Timestamped
  • テキストから音声:
    • Edge-TTS: 100以上の言語、400以上の声
    • E2-TTS, F5-TTS, CosyVoice: ゼロショットクローニング
    • kokoro: HuggingFace TTS Arenaで2位
  • 🔥 AIカバー(音声から音声): UVR5でボーカル除去、RVCで変調

3. リアルタイム翻訳

  • 即時音声認識
  • リアルタイム多言語翻訳
  • カスタマイズ可能なオーディオ入力

🤖 ウェブUI

ダビングスタジオタブ

  • 統合ハブ: YouTubeダウンロード、ノイズ除去、字幕、翻訳、TTS
  • ffmpeg互換フォーマットすべて対応
  • 出力オプション: WAV, FLAC, MP3
  • 100以上の言語での字幕と認識
  • 速度、ボリューム、ピッチ調整可能なTTS

多言語音声変換および字幕生成ウェブUIインターフェース

Whisper字幕タブ

  • 字幕専用: 90以上の言語
  • ビデオと統合された字幕表示
  • 単語単位のハイライトとノイズ除去オプション

翻訳タブ

  • 100以上の言語翻訳
  • 字幕ファイル対応(ASS、SSA、SRTなど)
  • リアルタイム音声認識と翻訳

リアルタイム音声認識および翻訳ウェブUI

音声生成タブ

  • オプション: Edge-TTS, F5-TTS, CosyVoice, kokoro
  • 有名人声でのポッドキャストと多言語サポート

音声クローニング技術を活用したポッドキャスト制作ウェブUI

🔥 AIカバータブ

音声クローニング技術を活用したポッドキャスト制作ウェブUI

💻 システム要件

  • OS: Windows 10/11(64ビット) ※ Linux/Mac非対応
  • GPU: CUDA 12.4対応NVIDIA(推奨)
  • VRAM: 4GB以上(8GB以上推奨)
  • RAM: 4GB以上
  • ストレージ: 20GB以上の空き容量
  • インターネット: 必須

📀 インストール

configure.batstart.batでVoice-Proを簡単にインストールできます。

1. パッケージ準備

  • GitHub Releaseから最新リリースをダウンロード(Source code (zip)
git clone https://github.com/abus-aikorea/voice-pro.git

2. インストールと実行

  1. 🚀 configure.bat
    • git、ffmpeg、CUDAをインストール(NVIDIA GPU使用時)
    • 初回のみ実行。インターネット必要、1時間以上かかる場合あり
    • コマンドウィンドウを閉じない
  2. 🚀 start.bat
    • Voice-ProウェブUIを起動
    • 初回実行時に依存関係をインストール(1時間以上かかる場合あり)
    • 問題発生時はinstaller_filesを削除後再実行

3. アップデート

  • 🚀 update.bat: Python環境を更新(再インストールより高速)

4. アンインストール

  • uninstall.bat実行、またはフォルダ削除(ポータブルインストール)

❓ 使用のヒント

ブラウザが自動起動しない場合

  • Windowsコマンドウィンドウを閉じ、start.batを再実行するか
  • ブラウザを直接起動し、コマンドウィンドウに表示されるアドレス(例: **http://127.0.0.1:7892**)を入力

CUDAメモリ不足エラーが出る場合

  • Windowsタスクマネージャーの「パフォーマンス」タブでGPUメモリを確認
  • ノイズ除去レベルを0または1に設定(レベル2は8GB以上のGPUメモリが必要)
  • 計算タイプをintに設定(floatは品質が高いがGPUメモリを多く使用)

字幕の品質を向上させるには?

  • 大きなWhisperモデルほど字幕品質が向上する傾向あり(large > medium > small > base > tiny)、ただし必ずしもそうではない
  • 計算タイプではfloatが優れた性能を発揮。intはモデル量子化でGPU使用量を減らし速度を向上させるが、性能は低下
  • ノイズ除去レベルを上げると背景音が除去され、残った音声のみが認識に使用されるが、常に良い結果を保証するわけではない

📢 注意事項

Windows DefenderがVoice-Proを信頼できないアプリとして警告し、実行を制限する場合があります。

  • SmartScreen「警告」設定: 「詳細情報」をクリックし、「それでも実行」を選択
  • SmartScreen「ブロック」設定: start.batのプロパティで「ブロック解除」をチェックし、再実行

Windows Defenderがバッチファイルをトロイの木馬と誤認識する場合、これは「偽陽性(False Positive)」と呼ばれることが多いです。解決策は以下の通りです。

  1. ファイル例外処理:
    • 「スタート」ボタンをクリックし、「設定」に移動
    • 「更新とセキュリティ」をクリック
    • 「Windowsセキュリティ」から「ウイルスと脅威の防止」に進む
    • 「ウイルスと脅威の防止設定の管理」をクリック
    • 「ウイルスと脅威の防止設定」で「例外の追加」を選択
    • 「ファイルまたはフォルダ」を選び、対象のバッチファイルを追加
  2. Windows Defenderの一時無効化: 一時的な解決策。ただし、他の脅威にさらされる可能性があるため注意が必要
  3. アンチウイルスソフトへの報告: ファイルが安全と確信できる場合、Microsoftに偽陽性として報告可能。Microsoftが確認後対応

🚨 お知らせ

  • このリポジトリはVoice-Proの無料トライアルを提供します。
  • Voice-Proの無料トライアル版では、最大60秒のメディアを処理できます。
  • Voice-Proの公式バージョンは、ABUS公式サイト(https://abuskorea.imweb.me)から購入できます。

☕ 貢献

  • このプロジェクトに参加して協力したい場合は、お気軽にIssuesを作成してください。
  • 問題が発生した場合は、このプロジェクトを改善するためにPull requestsを提出してください。
  • どのような貢献も歓迎します。
  • 購入、ビジネスパートナーシップ、技術チューニング、投資、その他の関連事項に関するお問い合わせは、メール([email protected])でお問い合わせください。
  • このプロジェクトが気に入ったら、このリポジトリに星を付けてください。大変感謝いたします。 ⭐⭐⭐
  • こちらから寄付でVoice-Proを支援できます。

"Buy Me A Coffee"

📬 連絡先

👍 YouTube

🙏 クレジット

©️ 著作権情報

by ABUS