Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨China's DeepSeek heeft zojuist het enige open-source model gelanceerd dat goed genoeg is in wiskunde om IMO Gold te winnen, en een must-read rapport!
Het belangrijkste idee is geïnspireerd op dingen waar Karpathy en anderen over hebben gesproken: ga verder dan "final answer RL" in een generator–verifier–meta-verifier lus in pure taal.
– Een verifier is RL-getraind om bewijzen te scoren.
– Een meta-verifier controleert de kritiek van de verifier.
– Een generator is RL-getraind op de beloningssignalen van de verifier om betere bewijzen te schrijven en zelf te controleren.
Omdat alles in natuurlijke taal leeft (geen Lean), zou dit recept moeten uitbreiden naar veel verifieerbare domeinen: wetenschap, code, overal waar controleren gemakkelijker is dan oplossen!

Boven
Positie
Favorieten

