熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我願意為這個觀點而奮鬥:
最佳的語音模型是那些在關鍵實體上具有最佳準確性的模型,而不是那些優化字詞錯誤率(WER)的模型。
大多數語音轉文字提供者都優化字詞錯誤率,但在生產應用中,字詞錯誤率並不是那麼相關。
如果你錯過了客戶的名字、他們的電話號碼或他們剛剛逐字拼寫的街道地址,那麼正確識別95%的單詞是毫無用處的。
Gladia團隊進行了一個非常酷的基準測試:
• 1,000多個呼叫中心對話
• 大量背景噪音
• 專注於提取名字、電話號碼、地址、地點等。
Gladia模型的表現超過了其他所有最先進的模型,最高達到17%!
這正是使用這些模型的公司所關心的數據。如果你搞錯了這一點,所有後續的流程都會崩潰。
還有幾件值得一提的事情:
• 部分響應的延遲:< 150毫秒
• 支援100多種語言
• 動態語言檢測
• 整體字詞錯誤率為5.97%
對於任何使用語音模型的人來說,這絕對值得檢查:
感謝Gladia團隊與我合作撰寫這篇文章。
熱門
排行
收藏
