热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
好的,看起来这已经在发布说明中提到了(我检查过),所以……(注意:测试模型是我的工作的一部分,这篇文章并不是OpenAI赞助的):
我被邀请与机器人技术、数学、免疫学、医学、音乐等领域的专家一起进行GPT-5.1 Pro的alpha测试。我的重点是生命科学的商业研究和战略以及一些个人用例。
使用GPT-5.1 Pro几天后,我发现它更像是一个人类领域专家,而不是GPT-5 Pro,写作更清晰,判断力更好,偏离主题更少,综合能力更强,情感反应更敏感。
我将GPT-5.1 Pro与GPT-5 Pro在科学文献综合、药物发布计划和社交媒体分析等工作任务上进行了对比。我还尝试了个人财务规划甚至日记。结果是:
- 在研究和规划方面更严谨和全面。
- 推理能力更强。
- 更能保持专注,避免偏离主题(至少在一个案例中,避免了相关错误)。
- 在沟通风格上更清晰、更自信、更具同理心。
考虑到OpenAI对现实世界表现的关注(例如GDPval)以及其在金融等领域招聘领域专家的报道,我认为人类领域专业知识正是他们所追求的,而通过GPT-5.1 Pro,他们正在逐步接近。
不过,这并不意味着它在所有方面都更好。它在制作专业质量的演示文稿和Excel电子表格方面仍然很糟糕,这是OpenAI模型的一个显著弱点,我相信他们正在努力解决这个问题。我还看到至少一位测试者发现该模型在处理已知的STEM领域开放问题时采取了保守态度,选择解释为什么这些是开放问题。
总体而言,如果我必须量化一下,我会说在我使用的那些方面,它比GPT-5 Pro提升了10-15%。这感觉像是朝着更像真实同事的模型迈出了一步,具备更好的领域专业知识、直觉和判断力,以及更强的同理心和沟通能力。
这对AI在2026年做出更具影响力的工作是个好兆头。
热门
排行
收藏

