对于复杂的推理任务,我发现自己同时运行 claude、grok、gpt 和 gemini,并比较它们的答案