Du bist in einem ML Engineer Interview bei Stripe. Der Interviewer fragt: "Menschen bestreiten oft Transaktionen, die sie tatsächlich getätigt haben. Wie würdest du ein Modell entwickeln, das diese falschen Streitigkeiten ohne beschriftete Daten vorhersagt?" Du: "Ich werde Karten mit hohen Streitigkeitsraten kennzeichnen." Interview vorbei. Hier ist, was du verpasst hast: Es gibt eine Technik namens Aktives Lernen, die es dir ermöglicht, überwachte Modelle ohne beschriftete Daten zu erstellen. Es ist günstiger und schneller als manuelle Annotation. Die Idee ist einfach: Hol dir menschliches Feedback zu Beispielen, bei denen das Modell am meisten Schwierigkeiten hat. So funktioniert es: ↳ Fang klein an: Beschrifte manuell 1-2% deiner Daten. Baue dein erstes Modell auf diesem winzigen Datensatz. Es wird nicht gut sein, aber das ist der Punkt. ↳ Generiere Vorhersagen: Führe das Modell auf unbeschrifteten Daten aus und erfasse Vertrauenswerte. Wahrscheinlichkeitsmodelle funktionieren hier gut – achte auf die Lücke zwischen den beiden am höchsten vorhergesagten Klassen. ↳ Strategisch beschriften: Ordne die Vorhersagen nach Vertrauen. Lass Menschen nur die Beispiele mit dem niedrigsten Vertrauensniveau beschriften. Es hat keinen Sinn, das zu beschriften, was das Modell bereits kennt. ↳ Wiederhole und verbessere: Füttere beschriftete Daten zurück in das Modell. Trainiere erneut. Das Modell wird schlauer darin, was es nicht weiß. Hör auf, wenn die Leistung deinen Anforderungen entspricht. ...