🚨A DeepSeek da China acabou de lançar o único modelo open-source bom o suficiente em matemática para ganhar, na minha opinião, o ouro, e um relatório obrigatório! A ideia principal se baseia em coisas que Karpathy e outros já discutiram: ir além da "resposta final RL" para um ciclo gerador–verificador–meta-verificador em linguagem pura. – Um verificador é treinado em RL para pontuar provas. – Um meta-verificador verifica as críticas do verificador. – Um gerador é treinado em RL em sinais de recompensa de verificadores para escrever e auto-verificar provas melhores. Como tudo vive em linguagem natural (sem Lean), essa receita DEVERIA se estender a muitos domínios verificáveis: ciência, código, qualquer lugar onde checar seja mais fácil do que resolver!