我開始將Anthropic模型視為「輕推理」模型,而OpenAI模型則是「深推理」模型。 僅僅是「輕推理」,Sonnet 4.5在有效的上下文使用上表現出色,能夠精確定位信息。 Codex工具調用笨重,並且它們與推理標記交錯,以測試假設。它渴望上下文以更好地理解問題。 當你擁有一個「熱」的上下文窗口時,GPT-5和Sonnet 4.5之間的差距變得明顯,這時不需要新的工具調用。 GPT-5可以持續思考幾分鐘,以找到詳細的完整解決方案,而Sonnet 4.5則滿足於幾秒鐘內提供一個可用的解決方案。 深推理僅在有足夠上下文的情況下有效,但允許模型徹底評估問題,讓它看起來幾乎超人。 相比之下,輕推理更接近表面,但為模型提供了思考的空間。在許多方面,它更具人性。 Anthropic在輕推理方面遠遠領先。GPT-5在最少思考的情況下,在許多測試中不如4o智能。 我預期Google會在兩個方面展開競爭,輕推理方面推出flash 3,深推理方面推出pro / ultra 3。