Você está em uma entrevista para Engenheiro de ML na Stripe. O entrevistador pergunta: "As pessoas frequentemente contestam as transações que realmente fizeram. Como você construiria um modelo que preveja essas disputas falsas sem nenhum dado rotulado?" Você: "Vou sinalizar cartões com altas taxas de disputa." Entrevista encerrada. Aqui está o que você perdeu: Existe uma técnica chamada Active Learning que permite construir modelos supervisionados sem dados rotulados. É mais barato e rápido do que a anotação manual. A ideia é simples: obter feedback humano sobre exemplos onde o modelo tem mais dificuldades. Veja como funciona: ↳ Comece pequeno: Rotule manualmente 1-2% dos seus dados. Construa seu primeiro modelo com base nesse pequeno conjunto de dados. Não vai ser bom, mas esse é o ponto. ↳ Gerar previsões: Rodar o modelo com dados não rotulados e capturar os índices de confiança. Modelos probabilísticos funcionam bem aqui — observe a diferença entre as duas principais classes previstas. ↳ Rotule estrategicamente: Classifice previsões por confiança. Faça com que os humanos rotulem apenas os exemplos de menor confiança. Não adianta rotular o que o modelo já sabe. ↳ Repetir e melhorar: Alimente dados rotulados de volta para o modelo. Treine de novo. O modelo fica mais inteligente sobre o que não sabe. Pare quando o desempenho atender aos seus requisitos. ...