Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sono disposto a morire su questa collina:
I migliori modelli vocali sono quelli con la migliore accuratezza sui principali enti, non quelli che ottimizzano per il WER (Word Error Rate).
La maggior parte dei fornitori di speech-to-text ottimizza per il WER, ma nelle applicazioni di produzione, il WER non è così rilevante.
Avere il 95% delle parole corrette è inutile se perdi il nome del cliente, il loro numero di telefono o l'indirizzo che hanno appena spellato lettera per lettera.
Il team di Gladia ha eseguito un benchmark molto interessante:
• Oltre 1.000 conversazioni di call center
• Molto rumore di fondo
• Focus sull'estrazione di nomi, numeri di telefono, indirizzi, località, ecc.
Il modello Gladia ha superato tutti gli altri modelli all'avanguardia fino al 17%!
Questi sono esattamente i dati che contano per le aziende che utilizzano questi modelli. Se sbagli questo, tutto il resto si rompe.
Alcune altre cose degne di nota:
• Latenza sui parziali: < 150ms
• Oltre 100 lingue supportate
• Rilevamento dinamico della lingua
• WER complessivo al 5,97%
Assolutamente da controllare per chiunque utilizzi modelli vocali:
Grazie al team di Gladia per aver collaborato con me su questo post.
Principali
Ranking
Preferiti
