Un altro esempio di un problema persistente con i LLM. Si comportano molto bene su domande mediche standard, ma quando la risposta corretta viene sostituita con "nessuna delle precedenti", le prestazioni calano. I modelli più recenti generalmente hanno cali di prestazioni inferiori.
15,03K