Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estou disposto a morrer nesta colina:
Os melhores modelos de voz são aqueles com a melhor precisão em entidades-chave, não aqueles que otimizam para WER (Taxa de Erro de Palavra).
A maioria dos fornecedores de conversão de fala para texto otimiza para WER, mas em aplicações de produção, WER não é tão relevante.
Acertar 95% das palavras é inútil se você errar o nome do cliente, o número de telefone dele ou o endereço da rua que ele acabou de soletrar letra por letra.
A equipe da Gladia realizou um benchmark muito interessante:
• Mais de 1.000 conversas de call center
• Muito ruído de fundo
• Foco na extração de nomes, números de telefone, endereços, locais, etc.
O modelo da Gladia superou todos os outros modelos de ponta em até 17%!
Esses são exatamente os dados que importam para as empresas que usam esses modelos. Se você errar isso, tudo o que vem a seguir quebra.
Algumas outras coisas que vale a pena mencionar:
• Latência em parciais: < 150ms
• Mais de 100 idiomas suportados
• Detecção dinâmica de idiomas
• WER geral em 5,97%
Definitivamente vale a pena conferir para quem usa modelos de voz:
Obrigado à equipe da Gladia por colaborar comigo neste post.
Top
Classificação
Favoritos
