Estoy empezando a ver los modelos antrópicos como modelos de "razonamiento ligero", mientras que los modelos OpenAI son modelos de "razonamiento profundo". Con solo "razonamiento ligero", Sonnet 4.5 sobresale en el uso eficiente del contexto para identificar información. Las llamadas a las herramientas del Codex son voluminosas y se intercalan con tokens de razonamiento para probar hipótesis. Anhela el contexto para comprender más del problema. La brecha entre GPT-5 y Sonnet 4.5 se hace evidente cuando tiene una ventana de contexto "caliente", donde no se necesitan nuevas llamadas a herramientas. GPT-5 puede pensar durante minutos y minutos para encontrar una solución completa detallada, mientras que Sonnet 4.5 se conforma con unos segundos para una solución útil. El razonamiento profundo solo funciona con suficiente contexto, pero permite que el modelo evalúe realmente los problemas de manera tan exhaustiva que parece casi sobrehumano. Por el contrario, el razonamiento ligero se mantiene más cerca de la superficie, pero sirve como espacio para respirar para que los modelos recopilen sus pensamientos. Es en muchos sentidos mucho más humano. Anthropic está muy por delante en el razonamiento ligero. Gpt-5 con pensamiento mínimo es menos inteligente que 4o en muchas pruebas. Espero que Google luche en ambos frentes, con flash 3 en razonamiento ligero y pro / ultra 3 en razonamiento profundo.