DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

🚨China's DeepSeek heeft zojuist het enige open-source model gelanceerd dat goed genoeg is in wiskunde om IMO Gold te winnen, en een must-read rapport! Het belangrijkste idee is geïnspireerd op dingen waar Karpathy en anderen over hebben gesproken: ga verder dan "final answer RL" in een generator–verifier–meta-verifier lus in pure taal. – Een verifier is RL-getraind om bewijzen te scoren. – Een meta-verifier controleert de kritiek van de verifier. – Een generator is RL-getraind op de beloningssignalen van de verifier om betere bewijzen te schrijven en zelf te controleren. Omdat alles in natuurlijke taal leeft (geen Lean), zou dit recept moeten uitbreiden naar veel verifieerbare domeinen: wetenschap, code, overal waar controleren gemakkelijker is dan oplossen!

Boven

Positie

Favorieten