Ești într-un interviu pentru inginer ML la Stripe. Intervievatorul întreabă: "Oamenii contestă adesea tranzacțiile pe care le-au făcut cu adevărat. Cum ai construi un model care să prezică aceste dispute false fără date etichetate?" Tu: "Voi marca cărțile cu rate mari de dispută." Interviul s-a încheiat. Iată ce ai ratat: Există o tehnică numită Active learning care îți permite să construiești modele supravegheate fără date etichetate. Este mai ieftin și mai rapid decât adnotarea manuală. Ideea este simplă: să primești feedback uman din exemplele în care modelul are cele mai mari dificultăți. Iată cum funcționează: ↳ Începe cu pași mici: Etichetează manual 1-2% din datele tale. Construiește-ți primul model pe acest set de date minuscul. Nu va fi bine, dar asta e ideea. ↳ Generează predicții: Rulează modelul pe date neetichetate și captează scorurile de încredere. Modelele probabilistice funcționează bine aici — uită-te la diferența dintre primele două clase prezise. ↳ Etichetează strategic: Clasifică predicțiile după încredere. Să pună oamenii să eticheteze doar cele mai scăzute exemple de încredere. Nu are rost să etichetezi ceea ce modelul știe deja. ↳ Repetă și îmbunătățește: Trimite datele etichetate înapoi în model. Antrenează-te din nou. Modelul devine mai inteligent în privința a ceea ce nu știe. Oprește-te când performanța îți satisface cerințele. ...