一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

你正在Stripe進行ML工程師面試。面試官問：「人們經常對他們實際上進行的交易提出異議。你會如何建立一個模型來預測這些虛假的異議，而不需要任何標記數據？」你："我會標記異議率高的卡片。" 面試結束。你錯過了什麼：有一種叫做主動學習的技術，可以讓你在沒有標記數據的情況下建立監督模型。這比手動標註便宜且快速。這個想法很簡單：獲取人類對模型最困難的例子的反饋。這是它的運作方式： ↳ 從小開始：手動標記1-2%的數據。基於這個小數據集建立你的第一個模型。它不會很好，但這正是重點。 ↳ 生成預測：在未標記數據上運行模型並捕獲置信度分數。概率模型在這裡效果很好——查看前兩個預測類別之間的差距。 ↳ 策略性標記：按置信度對預測進行排名。讓人類僅標記置信度最低的例子。標記模型已經知道的內容是沒有意義的。 ↳ 重複並改進：將標記數據反饋給模型。再次訓練。模型對它不知道的內容變得更聰明。當性能達到你的要求時停止。 ...