Jag antog en liknande Generator-Verifier-metod för användning av modeller i teoretisk fysikforskning. Mänskliga experter i vetenskapens framkant kan förbättra verifierarmodeller till den grad att autonom drift är extremt stark även på verkliga forskningsproblem (inte bara konstruerade matematiska tävlingsproblem = välformulerade problem som kan lösas på begränsad tid av människor). DeepSeekMathV2 Synergi mellan generator och verifierare Bevisgeneratorn och verifieraren bildar en självförbättrande återkopplingsslinga. När generatorn producerar allt mer komplexa bevis utmanar dessa verifieraren och blottlägger svagheter som blir nya träningsdata. Inledningsvis vägledde mänskliga experter verifierarens omskolning genom att granska dess flaggade problem – en process som effektiviserades genom att generera flera verifieringsförsök per bevis. Denna "meta-verifiering" (att kontrollera verifierarens fynd istället för bevis direkt) visade sig vara både lättare för människor och mer lärbar för LLM:er. Genom att skala antalet verifieringsanalyser och träning på dessa AI-assisterade annotationer nådde verifieraren så småningom en tillförlitlighetsnivå där mänsklig inblandning inte längre krävdes i de slutliga körningarna – vilket stängde loopen mellan automatiserad bevisgenerering och verifiering.
steve hsu
steve hsu28 nov. 2025
Wow! DeepSeekMath-V2 Generator-Verifier architecture again! ... Towards self-verifiable mathematical reasoning, we investigate how to train an accurate and faithful LLM-based verifier for theorem proving. We then train a proof generator using the verifier as the reward model, and incentivize the generator to identify and resolve as many issues as possible in their own proofs before finalizing them. To maintain the generation-verification gap as the generator becomes stronger, we propose to scale verification compute to automatically label new hard-to-verify proofs, creating training data to further improve the verifier. Our resulting model, DeepSeekMath-V2, demonstrates strong theorem-proving capabilities, achieving gold-level scores on IMO 2025 and CMO 2024 and a near-perfect 118/120 on Putnam 2024 with scaled test-time compute. While much work remains, these results suggest that self-verifiable mathematical reasoning is a feasible research direction that may help develop more capable mathematical AI systems.
Detta beskriver övergången från en grundläggande Generator-Verifier-pipeline med färdiga modeller till en där verifieraren själv har förbättrats via mänsklig expertträningsdata som används vid metaverifiering.
5,6K