Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вы на интервью на должность ML Engineer в Stripe.
Интервьюер спрашивает:
"Люди часто оспаривают транзакции, которые они действительно совершили.
Как бы вы построили модель, которая предсказывает эти ложные споры без каких-либо размеченных данных?"
Вы: "Я отмечу карты с высоким уровнем споров."
Интервью окончено.
Вот что вы пропустили:
Существует техника, называемая активным обучением, которая позволяет вам строить контролируемые модели без размеченных данных. Это дешевле и быстрее, чем ручная аннотация.
Идея проста: получите обратную связь от людей по примерам, где модель испытывает наибольшие трудности.
Вот как это работает:
↳ Начните с малого: вручную размечайте 1-2% ваших данных. Постройте свою первую модель на этом крошечном наборе данных. Она не будет хорошей, но в этом и суть.
↳ Генерируйте предсказания: запустите модель на неразмеченных данных и зафиксируйте оценки уверенности. Вероятностные модели хорошо работают здесь — посмотрите на разрыв между двумя наиболее предсказанными классами.
↳ Размечайте стратегически: ранжируйте предсказания по уверенности. Пусть люди размечают только примеры с самой низкой уверенностью. Нет смысла размечать то, что модель уже знает.
↳ Повторяйте и улучшайте: возвращайте размеченные данные обратно в модель. Обучайте снова. Модель становится умнее в том, чего она не знает.
Остановитесь, когда производительность соответствует вашим требованиям.
...

Топ
Рейтинг
Избранное

