🚨Kinas DeepSeek har nettopp sluppet den eneste åpen kildekode-modellen som er god nok i matematikk til å vinne gull etter min mening, og en rapport man må lese! Hovedideen henter fra ting Karpathy og andre har snakket om: gå forbi «endelig svar i virkeligheten» til en generator–verifikasjons–meta-verifikator-sløyfe i rent språk. – En verifikator er RL-trent til å score bevis. – En meta-verifikator sjekker verifikatorens kritikk. – En generator er RL-trent på verifikator-belønningssignaler for å skrive og selvsjekke bedre bevis. Fordi alt lever i naturlig språk (ingen Lean), BØR denne oppskriften utvides til mange verifiserbare domener: vitenskap, kode, hvor som helst hvor det er enklere å sjekke enn å løse!