🚨 Chinas DeepSeek hat gerade das einzige Open-Source-Modell veröffentlicht, das gut genug in Mathe ist, um IMO Gold zu gewinnen, und einen unbedingt lesenswerten Bericht! Die zentrale Idee basiert auf Dingen, über die Karpathy und andere gesprochen haben: über das „final answer RL“ hinauszugehen und in einen Generator–Verifizierer–Meta-Verifizierer-Zyklus in reiner Sprache zu wechseln. – Ein Verifizierer wird mit RL trainiert, um Beweise zu bewerten. – Ein Meta-Verifizierer überprüft die Kritiken des Verifizierers. – Ein Generator wird mit RL auf den Belohnungssignalen des Verifizierers trainiert, um bessere Beweise zu schreiben und selbst zu überprüfen. Da alles in natürlicher Sprache lebt (kein Lean), sollte dieses Rezept auf viele überprüfbare Bereiche anwendbar sein: Wissenschaft, Code, überall dort, wo Überprüfen einfacher ist als Lösen!