Je bent in een ML Engineer interview bij Stripe. De interviewer vraagt: "Mensen betwisten vaak transacties die ze daadwerkelijk hebben gedaan. Hoe zou je een model bouwen dat deze valse betwistingen voorspelt zonder gelabelde data?" Jij: "Ik zal kaarten met hoge betwistingspercentages markeren." Interview voorbij. Dit is wat je gemist hebt: Er is een techniek genaamd Actief leren die je in staat stelt om gesuperviseerde modellen te bouwen zonder gelabelde data. Het is goedkoper en sneller dan handmatige annotatie. Het idee is eenvoudig: krijg menselijke feedback op voorbeelden waar het model het moeilijkst mee heeft. Zo werkt het: ↳ Begin klein: Label handmatig 1-2% van je data. Bouw je eerste model op deze kleine dataset. Het zal niet goed zijn, maar dat is de bedoeling. ↳ Genereer voorspellingen: Voer het model uit op ongelabelde data en leg vertrouwensscores vast. Probabilistische modellen werken hier goed—kijk naar het verschil tussen de top twee voorspelde klassen. ↳ Label strategisch: Rangschik voorspellingen op basis van vertrouwen. Laat mensen alleen de voorbeelden met de laagste vertrouwensscores labelen. Geen zin om te labelen wat het model al weet. ↳ Herhaal en verbeter: Voed gelabelde data terug naar het model. Train opnieuw. Het model wordt slimmer over wat het niet weet. Stop wanneer de prestaties aan je eisen voldoen. ...