Skip to content

Latest commit

 

History

History
235 lines (187 loc) · 15.1 KB

README.por.md

File metadata and controls

235 lines (187 loc) · 15.1 KB

Voice-Pro: Ferramenta Definitiva de Conversão de Voz por IA e Tradução Multilíngue 🔊

🌍 한국어English中文简体中文繁體日本語DeutschEspañolPortuguês

GitHub Release

🎙️ Poderoso aplicativo da web com tecnologia AI para processamento de vídeo do YouTube, reconhecimento de fala, tradução e texto para fala com suporte multilíngue

Voice-Pro é um aplicativo web de ponta que transforma a criação de conteúdo multimídia. Ele integra download de vídeos do YouTube, separação de voz, reconhecimento de fala, tradução e conversão de texto em fala (TTS) em uma única ferramenta poderosa, oferecendo uma solução ideal para criadores, pesquisadores e profissionais multilíngues.

  • 🔊 Reconhecimento de fala de alto nível: Whisper, Faster-Whisper, Whisper-Timestamped
  • 🎤 Clonagem de voz Zero-Shot: F5-TTS, E2-TTS, CosyVoice
  • 📢 Conversão de texto em fala multilíngue: Edge-TTS, kokoro
  • 🎥 Processamento de vídeos do YouTube e extração de áudio: yt-dlp
  • 🌍 Tradução instantânea para mais de 100 idiomas: Deep-Translator
  • 🔇 Separação vocal de nível profissional: UVR5
  • 🔥 Criação de capas por IA: RVC

Como uma alternativa robusta ao ElevenLabs, o Voice-Pro capacita podcasters, desenvolvedores e criadores com soluções de voz avançadas.

⚠️ Observações

  • O Voice-Pro foi atualizado para a versão v2.x (Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0)
  • 🆓 A versão de teste gratuita suporta até 60 segundos de processamento de mídia
  • 🔥 Nova função AI Cover adicionada
  • 🎤 Suporte para CosyVoice e kokoro incluído
  • ⏳ Na primeira execução, será feito o download do CozyVoice2-0.5B (9GB). Dependendo da velocidade da rede, pode levar mais de uma hora
  • 🎧 Amostras de voz para clonagem serão continuamente atualizadas
  • Orientações:
    • Atualização de v1.x para v2.x: Impossível. Portanto, recomenda-se excluir a pasta installer_files e executar a versão mais recente de start.bat.
    • Atualização de v2.x para v2.x: Possível. Baixe o código mais recente e execute update.bat.
    • Novos usuários: Consulte as instruções de instalação abaixo.
    • Solução de problemas: Na maioria dos casos, excluir a pasta installer_files e executar configure.bat e start.bat sequencialmente resolverá o problema.

🚄 Demonstrações

Aba Estúdio de Dublagem: Transcrição, Tradução e TTS

voice-pro-demo-v1.6.7-1080p.mp4

Demonstração do fluxo de trabalho completo de processamento de mídia na aba Estúdio: Mostra um processo contínuo de transformação de mídia, desde o download de vídeos do YouTube até a separação de vozes por IA, legendas automáticas com Whisper, tradução multilíngue e dublagem profissional usando F5-TTS.

Aba F5-TTS-Multi: Criação de Podcasts

f5-tts-demo-elon-zuckerberg-1115-3.mp4

Demonstração da tecnologia inovadora de clonagem de voz por IA do F5-TTS: Apresenta uma tecnologia avançada de conversão de voz que imita precisamente as vozes reais de Mark Zuckerberg e Elon Musk para criar conteúdos totalmente novos.

Aba AI Cover

321132645-44ee3893-145d-474a-840b-1ff45802dfbf.mp4

Cria uma versão de Trump para "Cupid" de IU, "Saudades de Você" de Kim Kwang-seok e "Carta de um Soldado".

Aba Tradução ao Vivo: Reconhecimento e Tradução em Tempo Real

voice-pro-demo-v1.5.7-h264-1080p-live.mp4

Demonstração da função de tradução multilíngue em tempo real: Apresenta um processo inovador de processamento de mídia multilíngue que captura instantaneamente conteúdos de notícias da BBC, gera legendas em tempo real e as traduz imediatamente para outros idiomas.

⭐ Principais Recursos

1. Estúdio de Dublagem

  • Download de vídeos do YouTube e extração de áudio
  • Separação de voz com MDX-Net e Demucs
  • Suporte para reconhecimento de fala e tradução em mais de 100 idiomas

2. Tecnologias de Voz

  • Fala para Texto: Whisper, Faster-Whisper, Whisper-Timestamped
  • Texto para Fala:
    • Edge-TTS: Mais de 100 idiomas, mais de 400 vozes
    • E2-TTS, F5-TTS, CosyVoice: Clonagem Zero-Shot
    • kokoro: 2º lugar no HuggingFace TTS Arena
  • 🔥 AI Cover (Fala para Fala): Remoção vocal com UVR5, modulação com RVC

3. Tradução em Tempo Real

  • Reconhecimento de fala instantâneo
  • Tradução multilíngue em tempo real
  • Entradas de áudio personalizáveis

🤖 Interface Web

Aba Estúdio de Dublagem

  • Centro integrado: Downloads do YouTube, remoção de ruído, legendas, tradução e TTS
  • Suporta todos os formatos compatíveis com ffmpeg
  • Opções de saída: WAV, FLAC, MP3
  • Legendas e reconhecimento para mais de 100 idiomas
  • TTS com ajustes de velocidade, volume e tom

Interface Web de Conversão de Voz Multilíngue e Geração de Legendas

Aba Legendas Whisper

  • Foco em legendas: Mais de 90 idiomas
  • Exibição de legendas integrada ao vídeo
  • Destaque por palavra e opções de remoção de ruído

Aba Tradução

  • Tradução para mais de 100 idiomas
  • Suporte a arquivos de legendas (ASS, SSA, SRT, etc.)
  • Reconhecimento e tradução de voz em tempo real

Interface Web para Reconhecimento de Fala e Tradução em Tempo Real

Aba Geração de Voz

  • Opções: Edge-TTS, F5-TTS, CosyVoice, kokoro
  • Podcasts com vozes de celebridades e suporte multilíngue

Interface Web para Produção de Podcasts usando Tecnologia de Clonagem de Voz

🔥 Aba AI Cover

Interface Web para Produção de Podcasts usando Tecnologia de Clonagem de Voz

💻 Requisitos do Sistema

  • SO: Windows 10/11 (64 bits) ※ Linux/Mac não suportados
  • GPU: NVIDIA com suporte a CUDA 12.4 (recomendado)
  • VRAM: 4 GB ou mais (8 GB+ preferível)
  • RAM: 4 GB ou mais
  • Armazenamento: Pelo menos 20 GB de espaço livre
  • Internet: Obrigatória

📀 Instalação

Instale o Voice-Pro facilmente com configure.bat e start.bat.

1. Preparação do Pacote

  • Baixe a versão mais recente em GitHub Release (Source code (zip))
git clone https://github.com/abus-aikorea/voice-pro.git

2. Instalação e Execução

  1. 🚀 configure.bat
    • Instala git, ffmpeg e CUDA (se usar GPU NVIDIA)
    • Execute apenas uma vez; requer internet, pode levar mais de 1 hora
    • Não feche a janela de comando
  2. 🚀 start.bat
    • Inicia a interface web do Voice-Pro
    • Na primeira execução, instala dependências (pode levar mais de 1 hora)
    • Em caso de problemas, delete installer_files e execute novamente

3. Atualização

  • 🚀 update.bat: Atualiza o ambiente Python (mais rápido que reinstalar)

4. Desinstalação

  • Execute uninstall.bat ou delete a pasta (instalação portátil)

❓ Dicas de Uso

Se o navegador não abrir automaticamente

  • Feche a janela de comando do Windows e execute start.bat novamente
  • Abra o navegador manualmente e insira o endereço exibido na janela de comando (ex.: http://127.0.0.1:7892)

Se ocorrer um erro CUDA Out-of-Memory

  • Verifique o status da memória da GPU no Gerenciador de Tarefas do Windows - guia "Desempenho"
  • Defina o nível de remoção de ruído para 0 ou 1 (o nível 2 requer pelo menos 8 GB de memória GPU)
  • Configure o tipo de cálculo como "int" (o tipo "float" tem melhor qualidade, mas exige mais memória GPU)

Como melhorar a qualidade das legendas?

  • Modelos Whisper maiores tendem a melhorar a qualidade das legendas (large > medium > small > base > tiny), mas isso não é garantido
  • Entre os tipos de cálculo, "float" oferece bom desempenho; "int" reduz o uso da GPU e aumenta a velocidade por meio de quantização do modelo, mas com perda de desempenho
  • Aumentar o nível de remoção de ruído elimina mais sons de fundo e usa apenas a voz restante para reconhecimento, mas não garante sempre bons resultados

📢 Avisos

O Windows Defender pode exibir um aviso sobre um aplicativo não confiável e impedir a execução adicional do Voice-Pro.

  • Configuração "Aviso" do SmartScreen: Clique em "Mais informações" e depois em "Executar mesmo assim"
  • Configuração "Bloquear" do SmartScreen: Abra as propriedades do start.bat, marque "Desbloquear", aplique as alterações e execute novamente o start.bat

Quando o Windows Defender reconhece erroneamente um arquivo em lote como um Trojan, isso é frequentemente chamado de "Falso Positivo". Para resolver esse problema, siga estas etapas:

  1. Tratamento de exceções de arquivo: No Windows Defender, você pode configurar arquivos ou processos específicos para ignorar a verificação de segurança. Siga os passos abaixo:
    • Clique no botão "Iniciar" e vá para "Configurações"
    • Clique em "Atualização e Segurança"
    • Selecione "Segurança do Windows" e vá para "Proteção contra vírus e ameaças"
    • Clique em "Gerenciar configurações de proteção contra vírus e ameaças"
    • Selecione "Adicionar uma exclusão" em "Configurações de proteção contra vírus e ameaças"
    • Escolha "Arquivo ou Pasta", localize o arquivo em lote problemático e adicione-o como exceção
  2. Desativar temporariamente o Windows Defender: Isso pode ser uma solução temporária. No entanto, tome cuidado ao usar esse método, pois seu computador pode ficar exposto a outras ameaças
  3. Reportar o problema ao software antivírus: Se você tiver certeza de que o arquivo não é um Trojan, pode reportá-lo à Microsoft como "Falso Positivo". A Microsoft revisará e tomará as medidas necessárias

🚨 Aviso

  • Este repositório oferece uma versão de teste gratuita do Voice-Pro.
  • A versão de teste gratuita do Voice-Pro permite processar até 60 segundos de mídia.
  • A versão oficial do Voice-Pro pode ser adquirida através do site oficial da ABUS (https://abuskorea.imweb.me).

☕ Contribuições

  • Se você deseja participar e nos ajudar com este projeto, sinta-se à vontade para criar um Issues.
  • Se algo der errado, envie um Pull requests para melhorar este projeto.
  • Qualquer tipo de contribuição é bem-vindo.
  • Para dúvidas relacionadas a compras, parcerias comerciais, ajustes técnicos, investimentos e outros assuntos, entre em contato conosco por e-mail ([email protected]).
  • Se você gosta deste projeto, por favor, dê uma estrela a este repositório. Nós agradeceríamos muito. ⭐⭐⭐
  • Você pode apoiar o Voice-Pro com uma doação aqui:

"Buy Me A Coffee"

📬 Contato

👍 YouTube

🙏 Créditos

©️ Direitos Autorais

por ABUS