Якби я був a16z, yc або sequoia, я б активно інвестував у стартапи, які створюють нові способи збору та анотування реальних даних. > Мільярди годин даних водіння > Працівники фабрик взаємодіють з побутовою технікою та важкою технікою > Аудіосегментація з глибоким діалектичним і культурним розумінням > Експериментальні дані вологої лабораторії > Безперервний збір і анотація слідів агентів на обчислювальному масштабі Коли ми створювали LLM, більшість даних вже існувала в інтернеті. Потрібно було лише зішкріпати, почистити і масштабувати. Але коли ми рухаємося до моделей світових основ, вузьким місцем є якісні, реальні, добре проанотовані дані. І якість анотації має значення. Існує величезна різниця між: "Яблуко на дереві" та "Стиглі яблука на дереві. Вітер дме зі швидкістю 2 милі на годину. Температура становить близько 18°C. ” Питання просте. Скільки світу ти можеш насправді охопити? Сьогодні LLM знають, що яблука падають через гравітацію, а не тому, що розуміють причинність, а тому, що дуже добре розуміють мовні кореляції. Далі йде розуміння причинної структури. Якби я рухався до цього майбутнього, я б закріпив збір даних в Індії та інших регіонах Південної та Південно-Східної Азії. Я розгортав апаратне забезпечення, збирав тисячі годин даних про людську діяльність, медичні сигнали та життєві показники, а також безперервно запускав конвеєри анотації. День і ніч. Якби я був a16z, я б фінансував засновників для цього. Можливо, у мене просто з'явиться бажання зробити це сам.