Un alt exemplu de problemă persistentă cu LLM-urile. Se descurcă foarte bine la întrebările medicale standard, dar atunci când răspunsul corect este înlocuit cu "niciuna dintre cele de mai sus", performanța scade. Modelele mai recente au, în general, scăderi mai mici de performanță.
14,71K