你正在Stripe進行ML工程師面試。 面試官問: 「人們經常對他們實際上進行的交易提出異議。 你會如何建立一個模型來預測這些虛假的異議,而不需要任何標記數據?」 你:"我會標記異議率高的卡片。" 面試結束。 你錯過了什麼: 有一種叫做主動學習的技術,可以讓你在沒有標記數據的情況下建立監督模型。這比手動標註便宜且快速。 這個想法很簡單:獲取人類對模型最困難的例子的反饋。 這是它的運作方式: ↳ 從小開始:手動標記1-2%的數據。基於這個小數據集建立你的第一個模型。它不會很好,但這正是重點。 ↳ 生成預測:在未標記數據上運行模型並捕獲置信度分數。概率模型在這裡效果很好——查看前兩個預測類別之間的差距。 ↳ 策略性標記:按置信度對預測進行排名。讓人類僅標記置信度最低的例子。標記模型已經知道的內容是沒有意義的。 ↳ 重複並改進:將標記數據反饋給模型。再次訓練。模型對它不知道的內容變得更聰明。 當性能達到你的要求時停止。 ...