Ich denke, ein Teil der Schuld liegt in der Silicon Valley / SF Startup-Kultur, die die Entwicklung von AI-Wrappers und das Feintuning bestehender AI-Modelle belohnt. In Verbindung mit dem Mantra "schnell bauen, Dinge kaputt machen", das davon abräumt, "Zeit zu nehmen, um Dinge zu lernen / die Grundlagen zu lernen". Im Wesentlichen gibt es einen großen kulturellen Druck auf junge Forscher und Unternehmer (die an der Westküste leben), sofort etwas zu liefern und bei den Trends an der Spitze zu bleiben, um sich von ihren Kollegen abzuheben oder ein finanzierbares Startup zu haben. Das bedeutet, dass die meisten Personen nie die Chance bekommen, die Grundlagen zu lernen oder zu erkunden, und einfach auf bestehender Forschung oder Produkten aufbauen. Im Kontext von World Models bedeutet es einfach, dass man in der Lage ist, mit Gaussian Splat verwandte Forschung / Modelle auszuführen, anstatt fundamental zu verstehen, wie 3D-Vison funktioniert oder sogar Computergrafik. Im Kontext von verkörperter AI glaube ich, dass es noch schlimmer ist. Um das zu erläutern: Es ist viel einfacher, ein bestehendes VLA-Modell zu starten und einen Roboterarm so zu optimieren, dass er eine Tasse aufnimmt, als ein paar Tage damit zu verbringen, z.B. die Einschränkungen der klassischen Bewegungsplanung, Greifen, Manipulation, inverse Kinematik usw. zu verstehen. Und ich sage, dass "es schlimmer ist", weil man in der verkörperten AI nicht nur mit Software, sondern auch mit einem physischen System zu tun hat, und die Entwicklung oder Optimierung eines Hardware-/Software-Systems zu meistern, ist ein ganz anderes Biest.