Jesteś na rozmowie kwalifikacyjnej na stanowisko inżyniera ML w Stripe. Rekruter pyta: "Ludzie często kwestionują transakcje, które faktycznie zrealizowali. Jak zbudowałbyś model, który przewiduje te fałszywe spory bez żadnych oznaczonych danych?" Ty: "Zaznaczę karty z wysokim wskaźnikiem sporów." Rozmowa zakończona. Oto, co przegapiłeś: Istnieje technika zwana aktywnym uczeniem, która pozwala budować modele nadzorowane bez oznaczonych danych. Jest tańsza i szybsza niż ręczna adnotacja. Pomysł jest prosty: uzyskaj ludzką opinię na temat przykładów, w których model ma największe trudności. Oto jak to działa: ↳ Zacznij od małego: Ręcznie oznacz 1-2% swoich danych. Zbuduj swój pierwszy model na tym małym zbiorze danych. Nie będzie dobry, ale o to chodzi. ↳ Generuj prognozy: Uruchom model na nieoznakowanych danych i zbierz wyniki pewności. Modele probabilistyczne dobrze się tutaj sprawdzają — zwróć uwagę na różnicę między dwoma najwyżej przewidywanymi klasami. ↳ Oznaczaj strategicznie: Uporządkuj prognozy według pewności. Niech ludzie oznaczają tylko przykłady o najniższej pewności. Nie ma sensu oznaczać tego, co model już zna. ↳ Powtarzaj i poprawiaj: Wprowadź oznaczone dane z powrotem do modelu. Trenuj ponownie. Model staje się mądrzejszy w tym, czego nie wie. Zatrzymaj się, gdy wydajność spełnia twoje wymagania. ...