好的,看起来这已经在发布说明中提到了(我检查过),所以……(注意:测试模型是我的工作的一部分,这篇文章并不是OpenAI赞助的): 我被邀请与机器人技术、数学、免疫学、医学、音乐等领域的专家一起进行GPT-5.1 Pro的alpha测试。我的重点是生命科学的商业研究和战略以及一些个人用例。 使用GPT-5.1 Pro几天后,我发现它更像是一个人类领域专家,而不是GPT-5 Pro,写作更清晰,判断力更好,偏离主题更少,综合能力更强,情感反应更敏感。 我将GPT-5.1 Pro与GPT-5 Pro在科学文献综合、药物发布计划和社交媒体分析等工作任务上进行了对比。我还尝试了个人财务规划甚至日记。结果是: - 在研究和规划方面更严谨和全面。 - 推理能力更强。 - 更能保持专注,避免偏离主题(至少在一个案例中,避免了相关错误)。 - 在沟通风格上更清晰、更自信、更具同理心。 考虑到OpenAI对现实世界表现的关注(例如GDPval)以及其在金融等领域招聘领域专家的报道,我认为人类领域专业知识正是他们所追求的,而通过GPT-5.1 Pro,他们正在逐步接近。 不过,这并不意味着它在所有方面都更好。它在制作专业质量的演示文稿和Excel电子表格方面仍然很糟糕,这是OpenAI模型的一个显著弱点,我相信他们正在努力解决这个问题。我还看到至少一位测试者发现该模型在处理已知的STEM领域开放问题时采取了保守态度,选择解释为什么这些是开放问题。 总体而言,如果我必须量化一下,我会说在我使用的那些方面,它比GPT-5 Pro提升了10-15%。这感觉像是朝着更像真实同事的模型迈出了一步,具备更好的领域专业知识、直觉和判断力,以及更强的同理心和沟通能力。 这对AI在2026年做出更具影响力的工作是个好兆头。