🚨 DeepSeek acaba de hacer algo increíble. Construyeron un modelo matemático que no solo resuelve problemas, sino que verifica sus propias pruebas, se critica a sí mismo, corrige la lógica y lo intenta de nuevo hasta que no puede encontrar un solo error. Esa parte final es el avance: un modelo que puede verificar su propio razonamiento antes de que tú lo verifiques. Y los resultados son ridículos: • Rendimiento de nivel oro en IMO 2025 • Rendimiento de nivel oro en CMO 2024 • 118/120 en Putnam 2024, casi perfecto, superando todas las puntuaciones humanas • Supera a GPT-5 Thinking y Gemini 2.5 Pro en las categorías más difíciles Lo que hace que DeepSeek Math V2 sea increíble no es la precisión, sino la arquitectura detrás de él. No persiguieron modelos más grandes o cadenas de pensamiento más largas. Construyeron un ecosistema: ✓ un verificador dedicado que busca lagunas lógicas ✓ un meta-verificador que comprueba si el verificador está alucinando ✓ un generador de pruebas que aprende a temer el razonamiento deficiente ✓ y un bucle de entrenamiento donde el modelo sigue generando pruebas más difíciles que obligan al verificador a evolucionar El ciclo es brutal: Generar → Verificar → Meta-verificar → Corregir → Repetir. El problema central que resolvieron: la precisión de la respuesta final no significa nada en la demostración de teoremas. Puedes obtener el número correcto con una lógica basura. Así que entrenaron a un verificador para juzgar la prueba en sí, no la respuesta final. ...