DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Es gab etwas zutiefst Befriedigendes an ImageNet. Es hatte einen gut kuratierten Trainingssatz. Ein klar definiertes Testprotokoll. Einen Wettbewerb, der die besten Forscher zusammenbrachte. Und eine Rangliste, die ResNets und ViTs hervorgebracht hat und letztendlich das Feld für immer verändert hat. Dann folgte NLP. Egal wie sehr OpenAI, Anthropic und xAI uneinig sind, sie sind sich zumindest in einer Sache einig: Benchmarking. MMLU, HLE, SWEBench - man kann keinen Fortschritt erzielen, bis man in der Lage ist, ihn zu messen. Die Robotik hat immer noch keinen solchen Aufruf zur Einheit. Niemand ist sich über irgendetwas einig: Hardware, Aufgabe, Bewertung, Simulationsengine oder reale Umgebung. Jeder ist SOTA, per Definition, bei dem Benchmark, den er für jedes Papier spontan definiert. Vom Schöpfer von ImageNet - BEHAVIOR versucht, die gewaltige Herausforderung anzugehen, das Benchmarking in der Robotik auf einer reproduzierbaren Physik-Engine (Isaac Sim) zu vereinheitlichen. Das Projekt begann, bevor ich vom Stanford Vision Lab graduierte, und erforderte viele Jahre Hingabe und Doktoratskarrieren, um es aufzubauen. Ich hoffe, BEHAVIOR ist entweder das Signal zum Bergsteigen, das wir brauchen, oder der Funke, der uns endlich dazu bringt, darüber zu sprechen, wie wir echten Fortschritt als Feld messen können.

Top

Ranking

Favoriten