熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
你正在Stripe進行ML工程師面試。
面試官問:
「人們經常對他們實際上進行的交易提出異議。
你會如何建立一個模型來預測這些虛假的異議,而不需要任何標記數據?」
你:"我會標記異議率高的卡片。"
面試結束。
你錯過了什麼:
有一種叫做主動學習的技術,可以讓你在沒有標記數據的情況下建立監督模型。這比手動標註便宜且快速。
這個想法很簡單:獲取人類對模型最困難的例子的反饋。
這是它的運作方式:
↳ 從小開始:手動標記1-2%的數據。基於這個小數據集建立你的第一個模型。它不會很好,但這正是重點。
↳ 生成預測:在未標記數據上運行模型並捕獲置信度分數。概率模型在這裡效果很好——查看前兩個預測類別之間的差距。
↳ 策略性標記:按置信度對預測進行排名。讓人類僅標記置信度最低的例子。標記模型已經知道的內容是沒有意義的。
↳ 重複並改進:將標記數據反饋給模型。再次訓練。模型對它不知道的內容變得更聰明。
當性能達到你的要求時停止。
...

熱門
排行
收藏

