Kolejny przykład uporczywego problemu z LLM. Dobrze radzą sobie z standardowymi pytaniami medycznymi, ale gdy prawidłowa odpowiedź zostaje zastąpiona przez "żadna z powyższych", wydajność spada. Nowsze modele zazwyczaj mają mniejsze spadki wydajności.
15,3K