あなたはStripeのMLエンジニアの面接を受けていますね。 面接官はこう尋ねます: 「人は実際に行った取引に異議を唱えることが多い。 ラベル付けされたデータなしで、これらの偽の紛争を予測するモデルはどう作るのか?」 あなた:「異議申し立て率の高いカードにはフラグを立てます。」 面接終了。 見落とした内容は以下の通りです: アクティブラーニングという技術があり、ラベル付きデータなしで教師ありモデルを作成できます。手動注釈よりも安くて速いです。 アイデアはシンプルです:モデルが最も苦戦している例に対して人間のフィードバックを得ることです。 仕組みは以下の通りです: ↳ 小さく始めましょう:手動でデータの1〜2%にラベルを付けます。この小さなデータセットで最初のモデルを構築しましょう。良い結果にはならないだろうが、それがポイントだ。 ↳ 予測生成:ラベルのないデータ上でモデルを実行し、信頼度スコアを取得。確率モデルはここでうまく機能します。予測上位2つのクラス間のギャップを見てください。 ↳ 戦略的にラベルを付ける:予測を信頼度でランク付けする。人間には最も信頼度の低い例だけをラベル付けしてもらいましょう。モデルがすでに知っていることにラベルを付ける意味はありません。 ↳ 繰り返し改善:ラベル付きデータをモデルにフィードバックします。もう一度訓練しろ。モデルは知らないことに対して賢くなります。 パフォーマンスが自分の要求を満たしたらやめてください。 ...