Estou começando a ver os modelos Antrópicos como modelos de "raciocínio leve", enquanto os modelos OpenAI são modelos de "raciocínio profundo". Com apenas "raciocínio leve", o Soneto 4.5 se destaca no uso eficiente do contexto para identificar informações. As chamadas de ferramentas do Codex são volumosas e são intercaladas com tokens de raciocínio para testar hipóteses. Ele anseia por contexto para entender mais sobre o problema. A lacuna entre o GPT-5 e o Sonnet 4.5 torna-se aparente quando você tem uma janela de contexto "quente", onde nenhuma nova chamada de ferramenta é necessária. O GPT-5 pode pensar por minutos a fio para encontrar uma solução completa detalhada, enquanto o Sonnet 4.5 fica satisfeito com alguns segundos para uma solução útil. O raciocínio profundo só funciona com contexto suficiente, mas permite que o modelo realmente avalie os problemas de forma tão exaustiva que parece quase sobre-humano. Por outro lado, o raciocínio leve fica mais próximo da superfície, mas serve como espaço para os modelos coletarem seus pensamentos. É, em muitos aspectos, muito mais humano. Anthropic está muito à frente no raciocínio leve. Gpt-5 com pensamento mínimo é menos inteligente do que 4o em muitos testes. Espero que o Google lute em ambas as frentes, com flash 3 no raciocínio leve e pro / ultra 3 no raciocínio profundo.