Jika saya a16z, yc, atau sequoia, saya akan secara agresif berinvestasi di startup yang membangun cara baru untuk mengumpulkan dan menganotasi data dunia nyata. > Miliaran jam data mengemudi > Pekerja pabrik yang berinteraksi dengan peralatan dan alat berat > Segmentasi audio dengan pemahaman dialektis dan budaya yang mendalam > Data eksperimental laboratorium basah > Pengumpulan dan anotasi jejak agen secara berkelanjutan pada skala komputasi Ketika kami membangun LLM, sebagian besar data sudah ada di internet. Kami hanya perlu mengikis, membersihkan, dan menskalakan. Tetapi saat kita bergerak menuju model fondasi dunia, kemacetan adalah data berkualitas tinggi, dunia nyata, dan beranotasi dengan baik. Dan kualitas anotasi itu penting. Ada perbedaan besar antara: "Apel di atas pohon" dan "Apel matang di pohon. Angin bertiup dengan kecepatan 2 mil per jam. Suhunya sekitar 18°C. ” Pertanyaannya sederhana. Berapa banyak dunia yang benar-benar dapat Anda tangkap? Saat ini, LLM tahu bahwa apel jatuh karena gravitasi, bukan karena mereka memahami kausalitas, tetapi karena mereka memahami korelasi bahasa dengan sangat baik. Memahami struktur kausal datang selanjutnya. Jika saya membangun menuju masa depan itu, saya akan menambatkan pengumpulan data di India dan kawasan Asia Selatan dan Tenggara lainnya. Saya akan menyebarkan perangkat keras, mengumpulkan ribuan jam data aktivitas manusia, sinyal kesehatan, dan vital, dan menjalankan alur anotasi secara terus menerus. Siang dan malam. Jika saya a16z, saya akan mendanai para pendiri untuk melakukan ini. Saya mungkin hanya memiliki keinginan untuk melakukannya sendiri.