Du är på en ML-ingenjörsintervju på Stripe. Intervjuaren frågar: "Folk bestrider ofta transaktioner de faktiskt gjort. Hur skulle du bygga en modell som förutspår dessa falska tvister utan någon märkt data?" Du: "Jag kommer att flagga kort med höga tvistfrekvenser." Intervjun är över. Här är vad du missade: Det finns en teknik som heter Active learning som låter dig bygga övervakade modeller utan märkta data. Det är billigare och snabbare än manuell annotering. Idén är enkel: få mänsklig feedback på exempel där modellen har som mest svårt. Så här fungerar det: ↳ Börja smått: Märk manuellt 1–2 % av din data. Bygg din första modell på denna lilla datamängd. Det kommer inte att vara bra, men det är poängen. ↳ Generera förutsägelser: Kör modellen på omärkta data och fånga konfidenspoäng. Sannolikhetsmodeller fungerar bra här – titta på gapet mellan de två främsta förutsagda klasserna. ↳ Märk strategiskt: Rangordna förutsägelser efter förtroende. Låt människor bara märka de lägsta konfidensexemplen. Det är ingen idé att märka det modellen redan vet. ↳ Upprepa och förbättra: Mata tillbaka märkta data till modellen. Träna igen. Modellen blir smartare på vad den inte vet. Sluta när prestationen uppfyller dina krav. ...