Вы на интервью на должность ML Engineer в Stripe. Интервьюер спрашивает: "Люди часто оспаривают транзакции, которые они действительно совершили. Как бы вы построили модель, которая предсказывает эти ложные споры без каких-либо размеченных данных?" Вы: "Я отмечу карты с высоким уровнем споров." Интервью окончено. Вот что вы пропустили: Существует техника, называемая активным обучением, которая позволяет вам строить контролируемые модели без размеченных данных. Это дешевле и быстрее, чем ручная аннотация. Идея проста: получите обратную связь от людей по примерам, где модель испытывает наибольшие трудности. Вот как это работает: ↳ Начните с малого: вручную размечайте 1-2% ваших данных. Постройте свою первую модель на этом крошечном наборе данных. Она не будет хорошей, но в этом и суть. ↳ Генерируйте предсказания: запустите модель на неразмеченных данных и зафиксируйте оценки уверенности. Вероятностные модели хорошо работают здесь — посмотрите на разрыв между двумя наиболее предсказанными классами. ↳ Размечайте стратегически: ранжируйте предсказания по уверенности. Пусть люди размечают только примеры с самой низкой уверенностью. Нет смысла размечать то, что модель уже знает. ↳ Повторяйте и улучшайте: возвращайте размеченные данные обратно в модель. Обучайте снова. Модель становится умнее в том, чего она не знает. Остановитесь, когда производительность соответствует вашим требованиям. ...