Jste na pohovoru na pozici ML inženýra ve Stripe. Tazatel se ptá: "Lidé často zpochybňují transakce, které skutečně uzavřeli. Jak byste vytvořili model, který předpovídá tyto falešné spory bez jakýchkoli označených dat?" Vy: "Označím karty s vysokou mírou sporů." Pohovor skončil. Tady je, co jste přehlédli: Existuje technika zvaná Active Learning, která umožňuje vytvářet supervidované modely bez označených dat. Je to levnější a rychlejší než ruční anotace. Myšlenka je jednoduchá: získat lidskou zpětnou vazbu na příklady, kde model nejvíce bojuje. Takto to funguje: ↳ Začněte malými kroky: Ručně označte 1–2 % svých dat. Postavte svůj první model na tomto malém datovém souboru. Nebude to dobré, ale o to právě jde. ↳ Generujte predikce: Spusť model na neoznačených datech a zachyťte skóre spolehlivosti. Pravděpodobnostní modely zde fungují dobře – podívejte se na rozdíl mezi dvěma nejvýše předpokládanými třídami. ↳ Strategicky označovat: Seřaďte předpovědi podle jistoty. Nechte lidi označovat pouze ty nejspolehlivější příklady. Nemá smysl označovat to, co model už zná. ↳ Opakujte a vylepšujte: Posílejte označená data zpět do modelu. Trénuj znovu. Model je chytřejší v tom, co nezná. Přestaňte, když výkon splňuje vaše požadavky. ...