Jos olisin a16z, yc tai sequoia, sijoittaisin aggressiivisesti startup-yrityksiin, jotka rakentavat uusia tapoja kerätä ja kommentoida todellista dataa. > Miljardeja tunteja ajodataa > Tehdastyöntekijät vuorovaikutuksessa kodinkoneiden ja raskaiden koneiden kanssa > Äänisegmentointi syvällä dialektisella ja kulttuurisella ymmärryksellä > Märkälaboratoriokokeelliset tiedot > Agenttijälkien jatkuva keruu ja annotointi laskentamittakaavassa Kun rakensimme LLM:iä, suurin osa datasta oli jo olemassa internetissä. Meidän piti vain raapia, siivota ja skaalata. Mutta kun siirrymme kohti maailman perustusmalleja, pullonkaula on korkealaatuinen, todellisen maailman ja hyvin kommentoitu data. Ja annotaatioiden laadulla on merkitystä. On valtava ero seuraavien välillä: "Omena puussa" ja "Kypsiä omenoita puussa. Tuuli puhaltaa 2 mailia tunnissa. Lämpötila on noin 18°C. ” Kysymys on yksinkertainen. Kuinka paljon maailmaa voit oikeasti vangitsea? Nykyään LLM:t tietävät, että omenat putoavat painovoiman takia, eivät siksi että ne ymmärtäisivät kausaalisuutta, vaan koska he ymmärtävät kielen korrelaatioita erittäin hyvin. Seuraavaksi tulee syy-seurausrakenteen ymmärtäminen. Jos rakentaisin kohti tuota tulevaisuutta, ankkuroisin tiedonkeruun Intiassa ja muissa Etelä- ja Kaakkois-Aasian alueissa. Ottaisin käyttöön laitteiston, keräisin tuhansia tunteja ihmisen toimintadataa, terveyssignaaleja ja elintoimintoja sekä pyörittäisin jatkuvasti annotaatioputkia. Päivin ja öin. Jos olisin a16z, rahoittaisin perustajia tekemään tämän. Saatan vain tuntea halun tehdä se itse.