我願意為這個觀點而奮鬥: 最佳的語音模型是那些在關鍵實體上具有最佳準確性的模型,而不是那些優化字詞錯誤率(WER)的模型。 大多數語音轉文字提供者都優化字詞錯誤率,但在生產應用中,字詞錯誤率並不是那麼相關。 如果你錯過了客戶的名字、他們的電話號碼或他們剛剛逐字拼寫的街道地址,那麼正確識別95%的單詞是毫無用處的。 Gladia團隊進行了一個非常酷的基準測試: • 1,000多個呼叫中心對話 • 大量背景噪音 • 專注於提取名字、電話號碼、地址、地點等。 Gladia模型的表現超過了其他所有最先進的模型,最高達到17%! 這正是使用這些模型的公司所關心的數據。如果你搞錯了這一點,所有後續的流程都會崩潰。 還有幾件值得一提的事情: • 部分響應的延遲:< 150毫秒 • 支援100多種語言 • 動態語言檢測 • 整體字詞錯誤率為5.97% 對於任何使用語音模型的人來說,這絕對值得檢查: 感謝Gladia團隊與我合作撰寫這篇文章。