Další příklad přetrvávajícího problému s LLM. Vedou si velmi dobře ve standardních lékařských otázkách, ale když je správná odpověď nahrazena "nic z výše uvedeného", výkonnost klesá. Novější modely mají obecně nižší poklesy výkonu.
15,03K