Estou começando a ver os modelos da Anthropic como modelos de "raciocínio leve", enquanto os modelos da OpenAI são modelos de "raciocínio profundo". Com apenas "Raciocínio leve", o Sonnet 4.5 se destaca no uso eficiente do contexto para identificar informações. As chamadas da ferramenta Codex são volumosas e estão intercaladas com tokens de raciocínio para testar hipóteses. Ela anseia por contexto para entender mais do problema. A diferença entre o GPT-5 e o Sonnet 4.5 se torna aparente quando você tem uma janela de contexto "quente", onde não são necessárias novas chamadas de ferramenta. O GPT-5 pode pensar por minutos a fio para encontrar uma solução completa e detalhada, enquanto o Sonnet 4.5 se contenta com alguns segundos para uma solução utilizável. O raciocínio profundo só funciona com contexto suficiente, mas permite que o modelo realmente avalie problemas de forma tão exaustiva que parece quase sobre-humano. Em contraste, o raciocínio leve permanece mais próximo da superfície, mas serve como um espaço para os modelos coletarem seus pensamentos. De muitas maneiras, é muito mais humano. A Anthropic está muito à frente em raciocínio leve. O GPT-5 com pensamento mínimo é menos inteligente que o 4o em muitos testes. Espero que o Google lute em ambas as frentes, com o flash 3 em raciocínio leve e pro / ultra 3 em raciocínio profundo.