Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨A DeepSeek da China acaba de lançar o único modelo de código aberto bom o suficiente em matemática para ganhar o Ouro do IMO, e um relatório imperdível!
A ideia chave baseia-se em coisas que Karpathy e outros mencionaram: ir além do "RL de resposta final" para um loop gerador–verificador–meta-verificador em linguagem pura.
– Um verificador é treinado em RL para pontuar provas.
– Um meta-verificador verifica as críticas do verificador.
– Um gerador é treinado em RL com sinais de recompensa do verificador para escrever e auto-verificar melhores provas.
Como tudo vive em linguagem natural (sem Lean), esta receita DEVE estender-se a muitos domínios verificáveis: ciência, código, em qualquer lugar onde verificar é mais fácil do que resolver!

Top
Classificação
Favoritos

