一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我願意為這個觀點而奮鬥：最佳的語音模型是那些在關鍵實體上具有最佳準確性的模型，而不是那些優化字詞錯誤率（WER）的模型。大多數語音轉文字提供者都優化字詞錯誤率，但在生產應用中，字詞錯誤率並不是那麼相關。如果你錯過了客戶的名字、他們的電話號碼或他們剛剛逐字拼寫的街道地址，那麼正確識別95%的單詞是毫無用處的。 Gladia團隊進行了一個非常酷的基準測試： • 1,000多個呼叫中心對話 • 大量背景噪音 • 專注於提取名字、電話號碼、地址、地點等。 Gladia模型的表現超過了其他所有最先進的模型，最高達到17%！這正是使用這些模型的公司所關心的數據。如果你搞錯了這一點，所有後續的流程都會崩潰。還有幾件值得一提的事情： • 部分響應的延遲：< 150毫秒 • 支援100多種語言 • 動態語言檢測 • 整體字詞錯誤率為5.97% 對於任何使用語音模型的人來說，這絕對值得檢查：感謝Gladia團隊與我合作撰寫這篇文章。