🚨A DeepSeek da China acaba de lançar o único modelo de código aberto bom o suficiente em matemática para ganhar o Ouro do IMO, e um relatório imperdível! A ideia chave baseia-se em coisas que Karpathy e outros mencionaram: ir além do "RL de resposta final" para um loop gerador–verificador–meta-verificador em linguagem pura. – Um verificador é treinado em RL para pontuar provas. – Um meta-verificador verifica as críticas do verificador. – Um gerador é treinado em RL com sinais de recompensa do verificador para escrever e auto-verificar melhores provas. Como tudo vive em linguagem natural (sem Lean), esta receita DEVE estender-se a muitos domínios verificáveis: ciência, código, em qualquer lugar onde verificar é mais fácil do que resolver!