Vous êtes en entretien pour un poste d'ingénieur ML chez Stripe. L'intervieweur demande : "Les gens contestent souvent des transactions qu'ils ont réellement effectuées. Comment construiriez-vous un modèle qui prédit ces fausses contestations sans données étiquetées ?" Vous : "Je vais signaler les cartes avec des taux de contestation élevés." Entretien terminé. Voici ce que vous avez manqué : Il existe une technique appelée apprentissage actif qui vous permet de construire des modèles supervisés sans données étiquetées. C'est moins cher et plus rapide que l'annotation manuelle. L'idée est simple : obtenir des retours humains sur des exemples où le modèle a le plus de difficultés. Voici comment cela fonctionne : ↳ Commencez petit : Étiquetez manuellement 1 à 2 % de vos données. Construisez votre premier modèle sur ce petit ensemble de données. Il ne sera pas bon, mais c'est le but. ↳ Générez des prédictions : Exécutez le modèle sur des données non étiquetées et capturez les scores de confiance. Les modèles probabilistes fonctionnent bien ici : regardez l'écart entre les deux classes prédites les plus élevées. ↳ Étiquetez stratégiquement : Classez les prédictions par confiance. Faites en sorte que des humains n'étiquettent que les exemples avec la plus faible confiance. Aucun intérêt à étiqueter ce que le modèle connaît déjà. ↳ Répétez et améliorez : Réinjectez les données étiquetées dans le modèle. Entraînez à nouveau. Le modèle devient plus intelligent sur ce qu'il ne sait pas. Arrêtez-vous lorsque la performance répond à vos exigences. ...