Ein weiteres Beispiel für ein hartnäckiges Problem mit LLMs. Sie schneiden bei standardmäßigen medizinischen Fragen sehr gut ab, aber wenn die richtige Antwort durch "keine der oben genannten" ersetzt wird, sinkt die Leistung. Neuere Modelle haben im Allgemeinen geringere Leistungseinbußen.
14,7K