我开始将Anthropic模型视为“轻推理”模型,而OpenAI模型则是“深推理”模型。 仅凭“轻推理”,Sonnet 4.5在高效使用上下文以精准定位信息方面表现出色。 Codex工具调用笨重,并且它们夹杂着推理令牌以测试假设。它渴望上下文以更好地理解问题。 当你拥有一个“热”上下文窗口时,GPT-5和Sonnet 4.5之间的差距变得明显,此时不需要新的工具调用。 GPT-5可以连续思考数分钟,以找到详细的完整解决方案,而Sonnet 4.5则在几秒钟内就能满足于一个可用的解决方案。 深度推理仅在有足够上下文的情况下有效,但允许模型对问题进行如此彻底的评估,以至于看起来几乎超人类。 相比之下,轻推理更接近表面,但为模型收集思路提供了喘息空间。在许多方面,它更具人性。 在轻推理方面,Anthropic遥遥领先。Gpt-5在最少思考的情况下,在许多测试中不如4o智能。 我预计谷歌将在两个领域展开竞争,轻推理方面推出flash 3,深推理方面推出pro / ultra 3。