GPT-4o lag onder het niveau van medische professionals op benchmarks voor medisch redeneren, terwijl GPT-5 (blijkbaar Thinking medium) hen nu ver overtreft. (Gebruikelijke benchmarkvoorbehouden zijn van toepassing)
elvis
elvis12 aug, 20:58
GPT-5 op Multimodale Medische Redenering Op MedXpertQA MM verbetert GPT-5 de redenerings- en begripsscores met +29,62% en +36,18% ten opzichte van GPT-4o. Het overtreft pre-gecertificeerde menselijke experts met +24,23% in redenering en +29,40% in begrip.
101,26K