Skip to content

Latest commit

 

History

History
242 lines (189 loc) · 13 KB

README.zh.md

File metadata and controls

242 lines (189 loc) · 13 KB

Voice-Pro: 终极AI语音转换和多语言翻译工具 🔊

🌍 한국어English中文简体中文繁體日本語DeutschEspañolPortuguês

GitHub Release

🎙️ 强大的AI驱动Web应用程序,用于YouTube视频处理、语音识别、翻译和多语言支持的文本到语音转换

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。

  • 🔊 顶级语音识别:WhisperFaster-WhisperWhisper-Timestamped
  • 🎤 零样本声音克隆:F5-TTSE2-TTSCosyVoice
  • 📢 多语言文本转语音:Edge-TTSkokoro
  • 🎥 YouTube处理和音频提取:yt-dlp
  • 🌍 100多种语言即时翻译:Deep-Translator
  • 🔇 专业级人声分离:UVR5
  • 🔥 AI翻唱制作:RVC

作为ElevenLabs的强大替代方案,Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。

⚠️ 注意事项

  • Voice-Pro已更新至v2.x版本(Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
  • 🆓 免费试用版支持最长60秒的媒体处理
  • 🔥 新增AI翻唱功能
  • 🎤 新增CosyVoicekokoro支持
  • ⏳ 首次运行时需下载CozyVoice2-0.5B (9GB),根据网络速度可能需要1小时以上
  • 🎧 声音克隆用的语音样本将持续更新
  • 提示:
    • 从 v1.x 升级到 v2.x:不可能。因此,建议删除 installer_files 文件夹并运行最新版本的 start.bat。
    • 从 v2.x 升级到 v2.x:可能。下载最新代码后,运行 update.bat。
    • 首次用户:请参考以下安装方法。
    • 问题解决:在大多数情况下,删除 installer_files 文件夹并依次运行 configure.bat 和 start.bat 即可解决问题。

🚄 演示

配音工作室标签页:转录、翻译和TTS

voice-pro-demo-v1.6.7-1080p.mp4

工作室标签页的综合媒体处理工作流程演示:从YouTube视频下载到AI语音分离、Whisper自动字幕、多语言翻译,再到使用F5-TTS进行专业配音的一站式媒体转换过程。

F5-TTS-Multi标签页:播客制作

f5-tts-demo-elon-zuckerberg-1115-3.mp4

F5-TTS的创新AI声音克隆技术演示:精确模仿马克·扎克伯格和埃隆·马斯克的真实声音,创建全新内容的高级语音转换技术展示。

AI翻唱标签页

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

制作特朗普版本的IU《Cupid》、金光石《想念的人》、《士兵的信》。

实时翻译标签页:实时识别和翻译

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

实时多语言翻译功能演示:即时捕获BBC新闻内容,生成实时字幕,并立即翻译成其他语言的创新多语言媒体处理过程。

⭐ 主要功能

1. 配音工作室

  • YouTube视频下载和音频提取
  • 使用MDX-NetDemucs进行语音分离
  • 支持100多种语言的语音识别和翻译

2. 语音技术

  • 语音转文本: WhisperFaster-WhisperWhisper-Timestamped
  • 文本转语音:
    • Edge-TTS:支持100多种语言,400多种声音
    • E2-TTSF5-TTSCosyVoice:零样本克隆
    • kokoro:在HuggingFace TTS Arena中排名第二
  • 🔥 AI翻唱(语音转语音): 使用UVR5移除人声,使用RVC进行变声

3. 实时翻译

  • 即时语音识别
  • 实时多语言翻译
  • 可自定义音频输入

🤖 网页界面

配音工作室标签页

  • 集成中心:YouTube下载、降噪、字幕、翻译、TTS
  • 支持所有ffmpeg兼容格式
  • 输出选项:WAV、FLAC、MP3
  • 支持100多种语言的字幕和识别
  • 可调节TTS的速度、音量、音调

多语言语音转换和字幕生成网页界面

Whisper字幕标签页

  • 专用字幕:90多种语言
  • 视频集成字幕显示
  • 单词级高亮和降噪选项

翻译标签页

  • 100多种语言翻译
  • 支持字幕文件(ASS、SSA、SRT等)
  • 实时语音识别和翻译

实时语音识别和翻译网页界面

语音生成标签页

  • 选项:Edge-TTSF5-TTSCosyVoicekokoro
  • 使用名人声音制作播客和多语言支持

使用语音克隆技术制作播客的网页界面

🔥 AI翻唱标签页

使用语音克隆技术制作播客的网页界面

💻 系统要求

  • 操作系统: Windows 10/11(64位)※不支持Linux/Mac
  • 显卡: 支持CUDA 12.4的NVIDIA显卡(推荐)
  • 显存: 4GB以上(推荐8GB以上)
  • 内存: 4GB以上
  • 存储: 20GB以上可用空间
  • 网络: 必需

📀 安装

使用configure.batstart.bat轻松安装Voice-Pro。

1. 准备包

  • GitHub Release下载最新发布版本(Source code (zip)
git clone https://github.com/abus-aikorea/voice-pro.git

2. 安装和运行

  1. 🚀 configure.bat
    • 安装git、ffmpeg、CUDA(使用NVIDIA GPU时)
    • 首次运行一次;需要网络,可能需要1小时以上
    • 不要关闭命令窗口
  2. 🚀 start.bat
    • 运行Voice-Pro网页界面
    • 首次运行时安装依赖(可能需要1小时以上)
    • 如果出现问题,删除installer_files后重新运行

3. 更新

  • 🚀 update.bat:更新Python环境(比重新安装更快)

4. 卸载

  • 运行uninstall.bat或删除文件夹(便携式安装)

❓使用技巧

浏览器没有自动启动时

  • 关闭Windows命令窗口,重新运行start.bat,或
  • 直接启动浏览器,在地址栏输入Windows命令窗口显示的地址(例如**http://127.0.0.1:7892**)

出现CUDA内存不足错误时

  • 在Windows任务管理器-性能标签中检查GPU内存状态
  • 将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存
  • 将计算类型设置为int类型。float类型质量更好但需要更多GPU内存

如何提高字幕质量?

  • 字幕质量通常随着使用更大的Whisper模型而提高,但并不总是如此。large > medium > small > base > tiny
  • 在计算类型中,float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度,但性能较差
  • 提高降噪级别可以更多地去除背景音,只将剩余的语音用于语音识别。但不总是能保证更好的结果

📢 注意事项

Windows Defender可能会显示不受信任应用程序的警告,并阻止Voice-Pro继续运行。 如果SmartScreen安全级别设置为"警告",请点击"更多信息"后点击"仍要运行"。 如果SmartScreen设置为"阻止"级别,则没有可以运行安装的按钮。在这种情况下,打开start.bat文件的属性,勾选"解除阻止",应用更改后重新运行start.bat文件。

如果Windows Defender错误地将批处理文件识别为特洛伊木马,这通常被称为"误报"。要解决这个问题,可以采取以下步骤:

  1. 文件例外处理:可以在Windows Defender中设置特定文件或进程跳过安全检查。请按照以下步骤操作:

    • 点击"开始"按钮,进入"设置"
    • 点击"更新和安全"
    • 选择"Windows安全中心",进入"病毒和威胁防护"
    • 点击"管理病毒和威胁防护设置"
    • 在"病毒和威胁防护设置"中选择"添加或删除排除项"
    • 选择"文件或文件夹",找到相关批处理文件并添加为例外
  2. 暂时禁用Windows Defender:这可以作为临时解决方案。但使用此方法时,请注意计算机可能会暴露于其他威胁中。

  3. 向防病毒软件报告问题:如果您确信该文件不是特洛伊木马,可以向Microsoft报告为误报。Microsoft会审查后采取必要的措施。

🚨 通知

  • 此存储库提供 Voice-Pro 的免费试用版
  • Voice-Pro 的免费试用版允许您处理长达 60 秒的媒体。
  • Voice-Pro 的正式版本可通过 ABUS 官方网站 (https://abuskorea.imweb.me) 购买。

☕ 贡献

  • 如果您想参与并帮助我们进行此项目,请随时创建一个 Issues
  • 如果出现问题,请提交一个 Pull requests 以改进此项目。
  • 欢迎任何类型的贡献。
  • 有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询,请通过电子邮件 ([email protected]) 与我们联系。
  • 如果您喜欢这个项目,请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐
  • 您可以在这里通过捐赠支持 Voice-Pro:

"Buy Me A Coffee"

📬 联系方式

👍 YouTube

🙏 鸣谢

©️ 版权信息

by ABUS