Você está em uma entrevista para Engenheiro de ML na Stripe. O entrevistador pergunta: "As pessoas frequentemente contestam transações que realmente realizaram. Como você construiria um modelo que prevê essas contestações falsas sem dados rotulados?" Você: "Vou sinalizar cartões com altas taxas de contestação." Entrevista encerrada. Aqui está o que você perdeu: Há uma técnica chamada Aprendizado Ativo que permite construir modelos supervisionados sem dados rotulados. É mais barato e mais rápido do que a anotação manual. A ideia é simples: obter feedback humano sobre exemplos onde o modelo tem mais dificuldades. Aqui está como funciona: ↳ Comece pequeno: Rotule manualmente 1-2% dos seus dados. Construa seu primeiro modelo com este pequeno conjunto de dados. Não será bom, mas esse é o ponto. ↳ Gere previsões: Execute o modelo em dados não rotulados e capture as pontuações de confiança. Modelos probabilísticos funcionam bem aqui—observe a diferença entre as duas classes previstas mais altas. ↳ Rotule estrategicamente: Classifique as previsões por confiança. Faça com que humanos rotulem apenas os exemplos de menor confiança. Não faz sentido rotular o que o modelo já conhece. ↳ Repita e melhore: Alimente os dados rotulados de volta ao modelo. Treine novamente. O modelo se torna mais inteligente sobre o que não sabe. Pare quando o desempenho atender aos seus requisitos. ...