Estoy empezando a ver los modelos de Anthropic como modelos de "razonamiento ligero", mientras que los modelos de OpenAI son modelos de "razonamiento profundo". Con solo "razonamiento ligero", Sonnet 4.5 destaca en el uso eficiente del contexto para identificar información. Las llamadas a la herramienta Codex son voluminosas y están intercaladas con tokens de razonamiento para probar hipótesis. Necesita contexto para entender más del problema. La brecha entre GPT-5 y Sonnet 4.5 se hace evidente cuando tienes una ventana de contexto "caliente", donde no se necesitan nuevas llamadas a herramientas. GPT-5 puede pensar durante minutos para encontrar una solución completa y detallada, mientras que Sonnet 4.5 se siente satisfecha con unos pocos segundos para una solución utilizable. El razonamiento profundo solo funciona con suficiente contexto, pero permite al modelo evaluar problemas de manera tan exhaustiva que parece casi sobrehumano. En contraste, el razonamiento ligero se mantiene más cerca de la superficie, pero sirve como un espacio para que los modelos recojan sus pensamientos. En muchos sentidos, es mucho más humano. Anthropic está muy por delante en razonamiento ligero. GPT-5 con un pensamiento mínimo es menos inteligente que 4o en muchas pruebas. Espero que Google luche en ambos frentes, con flash 3 en razonamiento ligero y pro / ultra 3 en razonamiento profundo.