Outro exemplo de um problema persistente com LLMs. Eles se saem muito bem em questões médicas padrão, mas quando a resposta certa é substituída por "nenhuma das opções acima", o desempenho cai. Modelos mais recentes geralmente têm quedas menores no desempenho.
15,31K