Anda berada dalam wawancara ML Engineer di Stripe. Pewawancara bertanya: "Orang sering memperdebatkan transaksi yang sebenarnya mereka lakukan. Bagaimana Anda membangun model yang memprediksi perselisihan palsu ini tanpa data berlabel?" Anda: "Saya akan menandai kartu dengan tingkat sengketa tinggi." Wawancara selesai. Inilah yang Anda lewatkan: Ada teknik yang disebut Pembelajaran aktif yang memungkinkan Anda membuat model yang diawasi tanpa data berlabel. Ini lebih murah dan lebih cepat daripada anotasi manual. Idenya sederhana: dapatkan umpan balik manusia tentang contoh di mana model paling berjuang. Begini cara kerjanya: ↳ Mulai dari yang kecil: Beri label 1-2% data Anda secara manual. Bangun model pertama Anda pada himpunan data kecil ini. Itu tidak akan baik, tapi itulah intinya. ↳ Hasilkan prediksi: Jalankan model pada data yang tidak berlabel dan tangkap skor kepercayaan. Model probabilistik bekerja dengan baik di sini—lihat kesenjangan antara dua kelas teratas yang diprediksi. ↳ Beri label secara strategis: Peringkat prediksi berdasarkan kepercayaan diri. Mintalah manusia melabeli hanya contoh kepercayaan terendah. Tidak ada gunanya memberi label apa yang sudah diketahui model. ↳ Ulangi dan tingkatkan: Masukkan data berlabel kembali ke model. Berlatih lagi. Model menjadi lebih pintar tentang apa yang tidak diketahuinya. Berhentilah saat performa memenuhi kebutuhan Anda. ...