Olet ML-insinöörin haastattelussa Stripellä. Haastattelija kysyy: "Ihmiset kiistävät usein ne kaupat, jotka he oikeasti tekevät. Miten rakentaisit mallin, joka ennustaa nämä väärennetyt kiistat ilman mitään merkittyä dataa?" Sinä: "Merkitsen kortit, joilla on korkea riitaprosentti." Haastattelu ohi. Tässä mitä sinulta jäi huomaamatta: On olemassa tekniikka nimeltä Active Learning, jonka avulla voit rakentaa valvottuja malleja ilman nimettyä dataa. Se on halvempi ja nopeampi kuin manuaalinen merkintä. Ajatus on yksinkertainen: pyydä ihmisen palautetta esimerkeistä, joissa malli kamppailee eniten. Näin se toimii: ↳ Aloita pienestä: Merkitse manuaalisesti 1–2 % datastasi. Rakenna ensimmäinen mallisi tälle pienelle aineistolle. Se ei tule olemaan hyvä, mutta siinä on pointti. ↳ Luo ennusteita: Suorita malli merkitsemättömällä datalla ja kerää luottamuspisteitä. Todennäköisyysmallit toimivat tässä hyvin – katso kahden suurimman ennustetun luokan välistä eroa. ↳ Merkitse strategisesti: Järjestä ennusteet luottamuksen perusteella. Antakaa ihmisten merkitä vain alhaisimman luotettavuuden esimerkit. Ei ole järkeä merkitä sitä, mitä malli jo tietää. ↳ Toista ja paranna: Syötä merkityt tiedot takaisin malliin. Harjoittele taas. Malli muuttuu älykkäämmäksi siitä, mitä se ei tiedä. Lopeta, kun suorituskyky täyttää vaatimuksesi. ...