熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GPT-4o 在醫學推理基準測試中的表現低於醫療專業人員,而 GPT-5(顯然是思維中等)現在遠遠超過了他們。(通常的基準測試注意事項適用)


8月12日 20:58
GPT-5在多模態醫學推理中的表現
在MedXpertQA MM上,GPT-5在推理和理解分數上比GPT-4o提高了+29.62%和+36.18%。
在推理和理解方面,它超過了預先認證的人類專家,分別提高了+24.23%和+29.40%。

98.39K
熱門
排行
收藏