Estás en una entrevista para Ingeniero de ML en Stripe. El entrevistador pregunta: "La gente suele disputar las transacciones que realmente hizo. ¿Cómo construirías un modelo que prediga estas disputas falsas sin ningún dato etiquetado?" Tú: "Voy a marcar tarjetas con altas tasas de disputa." Entrevista terminada. Esto es lo que te perdiste: Hay una técnica llamada Active learning que te permite construir modelos supervisados sin datos etiquetados. Es más barato y rápido que la anotación manual. La idea es sencilla: obtener feedback humano sobre ejemplos donde el modelo tiene más dificultades. Así es como funciona: ↳ Empieza pequeño: Etiqueta manualmente entre el 1 y el 2% de tus datos. Construye tu primer modelo sobre este pequeño conjunto de datos. No será bueno, pero ese es el punto. ↳ Generar predicciones: Ejecutar el modelo con datos no etiquetados y capturar puntuaciones de confianza. Los modelos probabilísticos funcionan bien aquí: observa la brecha entre las dos clases predichas más altas. ↳ Etiqueta estratégicamente: Clasifica las predicciones por confianza. Que los humanos etiqueten solo los ejemplos de menor confianza. No tiene sentido etiquetar lo que el modelo ya sabe. ↳ Repetir y mejorar: Enviar datos etiquetados de vuelta al modelo. Entrena otra vez. El modelo se vuelve más inteligente respecto a lo que no sabe. Para cuando el rendimiento cumpla tus requisitos. ...