Skip to content

Latest commit

 

History

History
236 lines (187 loc) · 15.1 KB

README.deu.md

File metadata and controls

236 lines (187 loc) · 15.1 KB

Voice-Pro: Das ultimative Tool für KI-gestützte Sprachkonvertierung und mehrsprachige Übersetzung 🔊

🌍 한국어English中文简体中文繁體日本語DeutschEspañolPortuguês

GitHub Release

🎙️ Leistungsstarke KI-gestützte Webanwendung für YouTube-Videoverarbeitung, Spracherkennung, Übersetzung und mehrsprachige Text-to-Speech-Funktion

Voice-Pro ist eine hochmoderne Web-App, die die Erstellung von Multimedia-Inhalten revolutioniert. Sie kombiniert YouTube-Video-Downloads, Stimmseparation, Spracherkennung, Übersetzung und Text-to-Speech (TTS) in einem einzigen, leistungsstarken Tool und bietet so eine ideale Lösung für Kreative, Forscher und mehrsprachige Profis.

  • 🔊 Erstklassige Spracherkennung: Whisper, Faster-Whisper, Whisper-Timestamped
  • 🎤 Zero-Shot-Stimmklonierung: F5-TTS, E2-TTS, CosyVoice
  • 📢 Mehrsprachige Text-to-Speech: Edge-TTS, kokoro
  • 🎥 YouTube-Verarbeitung & Audioextraktion: yt-dlp
  • 🌍 Sofortige Übersetzung in über 100 Sprachen: Deep-Translator
  • 🔇 Professionelle Gesangsisolierung: UVR5
  • 🔥 AI-Cover-Erstellung: RVC

Als starke Alternative zu ElevenLabs bietet Voice-Pro Podcastern, Entwicklern und Kreativen fortschrittliche Sprachlösungen.

⚠️ Hinweise

  • Voice-Pro wurde auf v2.x aktualisiert (Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
  • 🆓 Die kostenlose Testversion unterstützt bis zu 60 Sekunden Medienverarbeitung
  • 🔥 Neue AI-Cover-Funktion hinzugefügt
  • 🎤 Unterstützung für CosyVoice und kokoro hinzugefügt
  • ⏳ Beim ersten Start wird CozyVoice2-0.5B (9 GB) heruntergeladen. Je nach Netzwerkgeschwindigkeit kann dies über eine Stunde dauern
  • 🎧 Stimmproben für die Klonierung werden kontinuierlich aktualisiert
  • Anleitung:
    • Upgrade von v1.x auf v2.x: Unmöglich. Daher wird empfohlen, den installer_files Ordner zu löschen und die neueste Version von start.bat auszuführen.
    • Upgrade von v2.x auf v2.x: Möglich. Laden Sie den neuesten Code herunter und führen Sie update.bat aus.
    • Erstanwender: Bitte beachten Sie die Installationsanleitung unten.
    • Fehlerbehebung: In den meisten Fällen wird das Problem durch Löschen des installer_files Ordners und anschließendes Ausführen von configure.bat und start.bat nacheinander behoben.

🚄 Demos

Dubbing-Studio-Tab: Transkription, Übersetzung & TTS

voice-pro-demo-v1.6.7-1080p.mp4

Demo des umfassenden Medienverarbeitungs-Workflows im Studio-Tab: Zeigt einen durchgehenden Prozess von YouTube-Video-Download über KI-basierte Stimmseparation, automatische Whisper-Untertitel, mehrsprachige Übersetzung bis hin zu professioneller Synchronisation mit F5-TTS.

F5-TTS-Multi-Tab: Podcast-Erstellung

f5-tts-demo-elon-zuckerberg-1115-3.mp4

Demo der innovativen KI-Stimmklonierung von F5-TTS: Präsentiert fortschrittliche Sprachkonvertierungstechnologie, die die tatsächlichen Stimmen von Mark Zuckerberg und Elon Musk präzise nachahmt, um völlig neue Inhalte zu erstellen.

AI-Cover-Tab

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

Erstellt eine Trump-Version von IUs „Cupid“, Kim Kwang-seoks „Ich vermisse dich“ und „Brief eines Gefreiten“.

Live-Übersetzung-Tab: Echtzeit-Erkennung und Übersetzung

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

Demo der Echtzeit-Mehrsprachigkeitsfunktion: Zeigt einen innovativen Prozess der mehrsprachigen Medienverarbeitung, der BBC-Nachrichteninhalte sofort erfasst, Untertitel in Echtzeit generiert und diese direkt in andere Sprachen übersetzt.

⭐ Hauptfunktionen

1. Dubbing-Studio

  • YouTube-Video-Downloads & Audioextraktion
  • Stimmseparation mit MDX-Net und Demucs
  • Unterstützung für Spracherkennung und Übersetzung in über 100 Sprachen

2. Sprachtechnologien

  • Sprache-zu-Text: Whisper, Faster-Whisper, Whisper-Timestamped
  • Text-zu-Sprache:
    • Edge-TTS: Über 100 Sprachen, mehr als 400 Stimmen
    • E2-TTS, F5-TTS, CosyVoice: Zero-Shot-Klonierung
    • kokoro: Platz 2 im HuggingFace TTS Arena
  • 🔥 AI-Cover (Sprache-zu-Sprache): Gesangsentfernung mit UVR5, Modulation mit RVC

3. Echtzeit-Übersetzung

  • Sofortige Spracherkennung
  • Mehrsprachige Übersetzung in Echtzeit
  • Anpassbare Audioeingaben

🤖 WebUI

Dubbing-Studio-Tab

  • All-in-One-Hub: YouTube-Downloads, Rauschunterdrückung, Untertitel, Übersetzung, TTS
  • Unterstützt alle ffmpeg-kompatiblen Formate
  • Ausgabeoptionen: WAV, FLAC, MP3
  • Untertitel & Erkennung für über 100 Sprachen
  • TTS mit einstellbarer Geschwindigkeit, Lautstärke und Tonlage

Mehrsprachige Sprachkonvertierung und Untertitelgenerierung WebUI-Schnittstelle

Whisper-Untertitel-Tab

  • Untertitel-spezifisch: Über 90 Sprachen
  • Integrierte Untertitelanzeige mit Video
  • Wortweise Hervorhebung & Optionen zur Rauschunterdrückung

Übersetzung-Tab

  • Übersetzung in über 100 Sprachen
  • Unterstützt Untertiteldateien (ASS, SSA, SRT usw.)
  • Echtzeit-Spracherkennung und Übersetzung

WebUI für Echtzeit-Spracherkennung und Übersetzung

Sprachgenerierung-Tab

  • Optionen: Edge-TTS, F5-TTS, CosyVoice, kokoro
  • Podcasts mit Promi-Stimmen & mehrsprachige Unterstützung

WebUI für Podcast-Erstellung mit Stimmklonierungstechnologie

🔥 AI-Cover-Tab

  • Gesangsentfernung: MDX-Net, Demucs
  • Stimmmodulation: RVC
  • AI-Stimmen können von Discord AI Hub heruntergeladen oder über [email protected] angefordert werden

WebUI für Podcast-Erstellung mit Stimmklonierungstechnologie

💻 Systemanforderungen

  • OS: Windows 10/11 (64-Bit) ※ Linux/Mac nicht unterstützt
  • GPU: NVIDIA mit CUDA 12.4 (empfohlen)
  • VRAM: 4 GB+ (8 GB+ bevorzugt)
  • RAM: 4 GB+
  • Speicher: Mindestens 20 GB freier Speicherplatz
  • Internet: Erforderlich

📀 Installation

Mit configure.bat und start.bat lässt sich Voice-Pro einfach installieren.

1. Paketvorbereitung

  • Laden Sie die neueste Version von GitHub Release herunter (Source code (zip))
git clone https://github.com/abus-aikorea/voice-pro.git

2. Installation und Ausführung

  1. 🚀 configure.bat
    • Installiert git, ffmpeg und CUDA (bei NVIDIA-GPU)
    • Einmalige Ausführung; Internet erforderlich, kann über 1 Stunde dauern
    • Schließen Sie das Befehlsfenster nicht
  2. 🚀 start.bat
    • Startet die Voice-Pro-WebUI
    • Bei erstmaliger Ausführung werden Abhängigkeiten installiert (kann über 1 Stunde dauern)
    • Bei Problemen installer_files löschen und erneut ausführen

3. Update

  • 🚀 update.bat: Aktualisiert die Python-Umgebung (schneller als Neuinstallation)

4. Deinstallation

  • Führen Sie uninstall.bat aus oder löschen Sie den Ordner (portable Installation)

❓ Nutzungstipps

Wenn der Browser nicht automatisch startet

  • Schließen Sie das Windows-Befehlsfenster und führen Sie start.bat erneut aus
  • Öffnen Sie den Browser manuell und geben Sie die im Befehlsfenster angezeigte Adresse ein (z. B. http://127.0.0.1:7892)

Bei einem CUDA-Out-of-Memory-Fehler

  • Überprüfen Sie den GPU-Speicherstatus im Windows Task-Manager – Reiter „Leistung“
  • Stellen Sie den Rauschunterdrückungslevel auf 0 oder 1 ein (Level 2 erfordert mindestens 8 GB GPU-Speicher)
  • Stellen Sie den Berechnungstyp auf „int“ ein („float“ bietet bessere Qualität, benötigt aber mehr GPU-Speicher)

Wie kann die Untertitelqualität verbessert werden?

  • Größere Whisper-Modelle tendieren zu besserer Untertitelqualität (large > medium > small > base > tiny), dies ist jedoch nicht garantiert
  • Unter den Berechnungstypen bietet „float“ gute Leistung; „int“ reduziert GPU-Nutzung und erhöht die Geschwindigkeit durch Modellquantisierung, allerdings mit Leistungseinbußen
  • Ein höherer Rauschunterdrückungslevel entfernt mehr Hintergrundgeräusche und nutzt nur die verbleibende Stimme für die Erkennung, garantiert aber nicht immer bessere Ergebnisse

📢 Vorsichtshinweise

Windows Defender könnte eine Warnung über eine nicht vertrauenswürdige Anwendung anzeigen und die weitere Ausführung von Voice-Pro verhindern.

  • SmartScreen „Warnung“-Einstellung: Klicken Sie auf „Weitere Infos“ und dann auf „Trotzdem ausführen“
  • SmartScreen „Blockieren“-Einstellung: Öffnen Sie die Eigenschaften von start.bat, aktivieren Sie „Entsperren“, übernehmen Sie die Änderungen und führen Sie start.bat erneut aus

Falls Windows Defender eine Batch-Datei fälschlicherweise als Trojaner erkennt, spricht man oft von einem „False Positive“. Zur Lösung dieses Problems können Sie folgende Schritte unternehmen:

  1. Datei-Ausnahmebehandlung: In Windows Defender können Sie bestimmte Dateien oder Prozesse von der Sicherheitsprüfung ausnehmen. Gehen Sie wie folgt vor:
    • Klicken Sie auf die Schaltfläche „Start“ und gehen Sie zu „Einstellungen“
    • Klicken Sie auf „Update und Sicherheit“
    • Wählen Sie „Windows-Sicherheit“ und gehen Sie zu „Viren- und Bedrohungsschutz“
    • Klicken Sie auf „Einstellungen für Viren- und Bedrohungsschutz verwalten“
    • Wählen Sie unter „Einstellungen für Viren- und Bedrohungsschutz“ die Option „Ausnahme hinzufügen“
    • Wählen Sie „Datei oder Ordner“, suchen Sie die betroffene Batch-Datei und fügen Sie sie als Ausnahme hinzu
  2. Windows Defender vorübergehend deaktivieren: Dies kann eine temporäre Lösung sein. Seien Sie jedoch vorsichtig, da Ihr Computer anderen Bedrohungen ausgesetzt sein könnte
  3. Problem an Antivirensoftware melden: Wenn Sie sicher sind, dass die Datei kein Trojaner ist, können Sie sie Microsoft als „False Positive“ melden. Microsoft wird dies prüfen und entsprechende Maßnahmen ergreifen

🚨 Hinweis

  • Dieses Repository bietet eine kostenlose Testversion von Voice-Pro.
  • Die kostenlose Testversion von Voice-Pro ermöglicht die Verarbeitung von Medien bis zu 60 Sekunden.
  • Die offizielle Version von Voice-Pro kann über die offizielle ABUS-Website (https://abuskorea.imweb.me) erworben werden.

☕ Beiträge

  • Wenn Sie an diesem Projekt teilnehmen und uns helfen möchten, können Sie gerne ein Issues erstellen.
  • Wenn etwas schief geht, senden Sie bitte einen Pull Requests, um dieses Projekt zu verbessern.
  • Jede Art von Beitrag ist willkommen.
  • Für Anfragen zu Käufen, Geschäftspartnerschaften, technischer Anpassung, Investitionen und anderen Angelegenheiten kontaktieren Sie uns bitte per E-Mail ([email protected]).
  • Wenn Ihnen dieses Projekt gefällt, geben Sie diesem Repository bitte einen Stern. Wir würden uns sehr freuen. ⭐⭐⭐
  • Sie können Voice-Pro hier mit einer Spende unterstützen:

"Buy Me A Coffee"

📬 Kontakt

👍 YouTube

🙏 Danksagung

©️ Urheberrecht

by ABUS