在Box,我們花了很多時間測試Box AI與新模型在非結構化數據上的表現,以了解它們在實際知識工作領域的表現。 從基準測試中我們看到,GPT-5在推理、數學、邏輯、編碼和其他工作領域相比於GPT-4.1有了顯著的能力提升。以下是這些改進在現實世界中應用的一些例子: *GPT 5更好地上下文化信息。當進行數據提取時,比如在沒有貨幣標籤但有倫敦地址的發票上提取最終的美元金額,GPT 5正確地回應需要從美元到英鎊的匯率。相比之下,GPT 4.1看到最終帳單後直接返回,錯誤地假設了貨幣。 * GPT-5提供更好的多模態分析。對於一家上市公司的年度報告,GPT-5被要求從顯示公司股權組成變化的圖像中的表格中隔離一個單元格。表格頂部明確說明所有股份金額以千為單位,而GPT-5清楚地說明了這一轉換,而GPT-4.1則沒有,因表格上寫著股票而圖例上寫著股份而感到困惑。 * GPT-5在高水平的提示和數據複雜性下表現更好。當在簡歷上提取所有工作開始日期、職位名稱和雇主名稱時,GPT-5能夠提取出每一條數據,而GPT-4.1似乎感到不堪重負,未能提取出相同的字段,原因在於提示的大小和文檔的複雜性。 * GPT-5在回答時更加清晰和明確。在一份涉及6種不同服務的外包協議中,當被問及“合同中的5種具體服務”時,GPT-5會返回前5種,並詢問第六種未被提及是否是故意的。相比之下,GPT-4.1僅返回前5種,沒有任何進一步的說明,這可能會導致用戶的後續困惑。 * GPT-5在複雜領域的數據解釋能力更強。對於流式細胞術圖表,通常用於免疫學,GPT-5正確識別出高比例的死亡細胞,並給出了可能導致這種情況的合理根本原因,而GPT-4.1則給出了最少的推理,需要進一步確認才能從原始數據中得出任何猜測。 * GPT-5更能識別代碼中的不一致性。當被要求識別給定的python代碼文件中的問題時,雖然GPT-5和4.1都能識別導致故障的真實錯誤,但只有GPT-5能夠推斷出更微妙的問題,比如在程序上下文中打印不正確的變量。 這些在數學、推理、邏輯和長上下文窗口中響應質量的改進對最終用戶在日常工作中非常有幫助,但在長時間運行的AI代理中,尤其是在每一步都沒有人工參與驗證信息時,這些改進將更加明顯。 看到這些改進在最新一批AI模型中不斷湧現真是太棒了,因為這將使AI代理能夠在越來越多的關鍵任務工作領域中使用。
77.94K