热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
GPT-4o 在医学推理基准测试中的表现低于医疗专业人员,而 GPT-5(显然是思维中等)现在远远超过了他们。(通常的基准测试注意事项适用)


8月12日 20:58
GPT-5在多模态医学推理中的表现
在MedXpertQA MM上,GPT-5在推理和理解分数上比GPT-4o提高了+29.62%和+36.18%。
在推理和理解方面,它超过了预先认证的人类专家,分别提高了+24.23%和+29.40%。

98.39K
热门
排行
收藏