Un autre exemple d'un problème persistant avec les LLM. Ils réussissent très bien sur les questions médicales standard, mais lorsque la bonne réponse est remplacée par "aucune des réponses ci-dessus", la performance chute. Les modèles plus récents ont généralement des baisses de performance moins importantes.
15,3K