Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg er villig til å stå på denne saken:
De beste stemmemodellene er de med best nøyaktighet med nøkkelenheter, ikke de som optimaliserer for WER (Word Error Rate).
De fleste tale-til-tekst-leverandører optimaliserer for WER, men i produksjonsapplikasjoner er WER ikke så relevant.
Å få 95 % av ordene riktig er nytteløst hvis du overser kundens navn, telefonnummer eller gateadressen de bare stavet bokstav for bokstav.
Teamet hos Gladia kjørte en veldig kul benchmark:
• 1 000+ samtaler i kundesenteret
• Mye bakgrunnsstøy
• Fokuser på å hente ut navn, telefonnumre, adresser, lokasjoner osv.
Gladia-modellen overgikk alle andre toppmoderne modeller med opptil 17 %!
Dette er nettopp dataene som er viktige for selskaper som bruker disse modellene. Gjør du dette feil, går alt nedstrøms i stykker.
Noen andre ting verdt å nevne:
• Forsinkelse på delvis: < 150 ms
• 100+ språk støttes
• Dynamisk språkdeteksjon
• Totalt WER på 5,97 %
Absolutt verdt å sjekke for alle som bruker stemmemodeller:
Takk til Gladia-teamet for samarbeidet med meg på dette innlegget.
Topp
Rangering
Favoritter
