Ett annat exempel på ett ihållande problem med LLM:er. De klarar sig mycket bra på vanliga medicinska frågor, men när det rätta svaret ersätts med "inget av ovanstående" sjunker prestandan. Nyare modeller har i allmänhet lägre prestandafall.