Een ander voorbeeld van een hardnekkig probleem met LLM's. Ze presteren erg goed op standaard medische vragen, maar wanneer het juiste antwoord wordt vervangen door "geen van bovenstaande" daalt de prestatie. Nieuwere modellen hebben over het algemeen lagere prestatieverliezen.
15,32K