Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek della Cina ha appena rilasciato l'unico modello open-source abbastanza bravo in matematica da vincere l'IMO Gold, e un rapporto imperdibile!
L'idea chiave trae spunto da ciò di cui hanno parlato Karpathy e altri: andare oltre il “final answer RL” in un ciclo generatore–verificatore–meta-verificatore in linguaggio puro.
– Un verificatore è addestrato con RL per valutare le prove.
– Un meta-verificatore controlla le critiche del verificatore.
– Un generatore è addestrato con RL sui segnali di ricompensa del verificatore per scrivere e auto-controllare prove migliori.
Poiché tutto vive nel linguaggio naturale (niente Lean), questa ricetta DOVREBBE estendersi a molti domini verificabili: scienza, codice, ovunque dove controllare è più facile che risolvere!

Principali
Ranking
Preferiti

