Otro ejemplo de un problema persistente con los LLMs. Hacen muy bien en preguntas médicas estándar, pero cuando la respuesta correcta se reemplaza por "ninguna de las anteriores", el rendimiento disminuye. Los modelos más recientes generalmente tienen caídas de rendimiento más bajas.
15,32K