مثال آخر على مشكلة مستمرة مع LLMs. إنهم يقومون بعمل جيد للغاية في الأسئلة الطبية القياسية ، ولكن عندما يتم استبدال الإجابة الصحيحة ب "لا شيء مما سبق" ينخفض الأداء. تحتوي الموديلات الحديثة بشكل عام على انخفاض أقل في الأداء.
‏‎14.71‏K