Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agora você pode rodar texto para fala de produção com latência abaixo de 200ms.
Um sistema TTS open-source acabou de lançar streaming em tempo real com saída de áudio de 150ms.
Ele suporta clonagem de voz zero-shot em nove idiomas e muitos dialetos.
O bi-streaming permite voz em tempo real
Ele transmite texto enquanto o áudio sai em streaming.
Sem buffer de frases completas.
A latência permanece baixa sem degradar a qualidade do áudio.
Isso se encaixa em agentes ao vivo, assistentes e aplicativos interativos.
• Entrada de texto e saída de áudio executadas simultaneamente
• Latência ponta a ponta chega a ~150ms
• Funciona com pilhas padrão de inferência de GPU
Clonagem de voz zero-shot funciona em vários idiomas
Ele clona vozes sem treinamento específico para o alto-falante.
Um áudio de referência curto já é suficiente.
A mesma voz se transfere entre línguas e sotaques.
• Nove linguagens principais suportadas
• A síntese cross-lingual mantém-se consistente
• A similaridade dos alto-falantes permanece estável
Isso adiciona controle fino para a produção
Você pode controlar pronúncia, velocidade, emoção e volume.
Números e símbolos se normalizam automaticamente.
Ele funciona como serviço ou dentro de contêineres.
...

Melhores
Classificação
Favoritos
