熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
好的,看起來這已經在發布說明中提到過了(我檢查過),所以……(注意:測試模型是我的工作的一部分,這篇文章並不是由 OpenAI 贊助的):
我被邀請與機器人學、數學、免疫學、醫學、音樂等領域的專家一起進行 GPT-5.1 Pro 的 alpha 測試。我的重點是生命科學商業研究和策略以及一些個人用例。
使用 GPT-5.1 Pro 幾天後,我發現它更像是一位人類領域專家,而不是 GPT-5 Pro,寫作更清晰、判斷力更好、偏離主題的情況更少、綜合能力更強,並且對情感的反應更具意識。
我將 GPT-5.1 Pro 與 GPT-5 Pro 進行了正面比較,針對科學文獻綜合、藥物上市計劃和社交媒體分析等工作任務。我還嘗試了個人財務規劃甚至日記。結果是:
- 在研究和規劃方面更嚴謹和全面。
- 推理能力更強。
- 更能保持專注,避免偏離主題(至少在一個案例中,避免了相關錯誤)。
- 在溝通風格上更清晰、更自信、更具同理心。
考慮到 OpenAI 對現實世界表現的關注(例如 GDPval)以及其在金融等領域聘請領域專家的報導,我認為人類領域專業知識正是他們所追求的,而通過 GPT-5.1 Pro,他們正在逐步接近。
話雖如此,它並不是在所有方面都更好。它在創建專業質量的演示文稿和 Excel 試算表方面仍然很糟糕,這是 OpenAI 模型的一個顯著弱點,我相信他們正在努力修復。而且我看到至少有一位測試者發現該模型保守地避免處理已知的 STEM 領域開放問題,而是選擇解釋為什麼它們是開放問題。
總的來說,如果我必須量化一下,我會說它在我使用的類型上比 GPT-5 Pro 提升了 10-15%。這感覺像是朝著更像真實同事思考和溝通的模型邁出了一步,擁有更好的領域專業知識、直覺和判斷力,以及增強的同理心和溝通技巧。
這對於 AI 在 2026 年做出更具影響力的工作是個好兆頭。
熱門
排行
收藏

