热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
你正在Stripe进行机器学习工程师面试。
面试官问:
“人们经常对他们实际进行的交易提出争议。
你会如何构建一个模型来预测这些虚假的争议,而没有任何标记数据?”
你: “我会标记争议率高的卡片。”
面试结束。
你错过了以下内容:
有一种叫做主动学习的技术,可以让你在没有标记数据的情况下构建监督模型。这比手动标注便宜且快速。
这个想法很简单:获取人类对模型最困难示例的反馈。
以下是它的工作原理:
↳ 从小开始:手动标记1-2%的数据。基于这个小数据集构建你的第一个模型。它不会很好,但这正是重点。
↳ 生成预测:在未标记数据上运行模型并捕获置信度分数。概率模型在这里效果很好——查看前两个预测类别之间的差距。
↳ 战略性标记:按置信度对预测进行排名。让人类仅标记置信度最低的示例。没有必要标记模型已经知道的内容。
↳ 重复并改进:将标记数据反馈给模型。重新训练。模型会变得更聪明,了解它不知道的内容。
当性能达到你的要求时停止。
...

热门
排行
收藏

