Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jsem ochoten zemřít v tomhle kopci:
Nejlepší hlasové modely jsou ty s nejvyšší přesností u klíčových entit, ne ty, které optimalizují pro WER (Word Error Rate).
Většina poskytovatelů převodu řeči na text optimalizuje pro WER, ale v produkčních aplikacích není WER tak relevantní.
Správně zařadit 95 % slov je k ničemu, pokud přehlédnete jméno zákazníka, jeho telefonní číslo nebo adresu, kterou právě napsali písmeno po písmenu.
Tým v Gladii provedl velmi zajímavý benchmark:
• 1 000+ konverzací v call centru
• Hodně šumu na pozadí
• Zaměřit se na získávání jmen, telefonních čísel, adres, lokalit atd.
Model Gladia překonal všechny ostatní špičkové modely až o 17 %!
Právě tato data jsou pro firmy používající tyto modely důležitá. Když to uděláte špatně, všechno se rozbije.
Ještě pár dalších věcí, které stojí za zmínku:
• Latence u parciálů: < 150 ms
• Podporovaných 100+ jazyků
• Dynamická detekce jazyka
• Celkový WER na úrovni 5,97 %
Určitě stojí za to to zkontrolovat, pokud někdo používá hlasové modely:
Děkuji týmu Gladia za spolupráci na tomto příspěvku.
Top
Hodnocení
Oblíbené
