好的,看起來這已經在發布說明中提到過了(我檢查過),所以……(注意:測試模型是我的工作的一部分,這篇文章並不是由 OpenAI 贊助的): 我被邀請與機器人學、數學、免疫學、醫學、音樂等領域的專家一起進行 GPT-5.1 Pro 的 alpha 測試。我的重點是生命科學商業研究和策略以及一些個人用例。 使用 GPT-5.1 Pro 幾天後,我發現它更像是一位人類領域專家,而不是 GPT-5 Pro,寫作更清晰、判斷力更好、偏離主題的情況更少、綜合能力更強,並且對情感的反應更具意識。 我將 GPT-5.1 Pro 與 GPT-5 Pro 進行了正面比較,針對科學文獻綜合、藥物上市計劃和社交媒體分析等工作任務。我還嘗試了個人財務規劃甚至日記。結果是: - 在研究和規劃方面更嚴謹和全面。 - 推理能力更強。 - 更能保持專注,避免偏離主題(至少在一個案例中,避免了相關錯誤)。 - 在溝通風格上更清晰、更自信、更具同理心。 考慮到 OpenAI 對現實世界表現的關注(例如 GDPval)以及其在金融等領域聘請領域專家的報導,我認為人類領域專業知識正是他們所追求的,而通過 GPT-5.1 Pro,他們正在逐步接近。 話雖如此,它並不是在所有方面都更好。它在創建專業質量的演示文稿和 Excel 試算表方面仍然很糟糕,這是 OpenAI 模型的一個顯著弱點,我相信他們正在努力修復。而且我看到至少有一位測試者發現該模型保守地避免處理已知的 STEM 領域開放問題,而是選擇解釋為什麼它們是開放問題。 總的來說,如果我必須量化一下,我會說它在我使用的類型上比 GPT-5 Pro 提升了 10-15%。這感覺像是朝著更像真實同事思考和溝通的模型邁出了一步,擁有更好的領域專業知識、直覺和判斷力,以及增強的同理心和溝通技巧。 這對於 AI 在 2026 年做出更具影響力的工作是個好兆頭。