另一個關於大型語言模型(LLMs)持續存在的問題的例子。它們在標準醫學問題上表現得很好,但當正確答案被替換為「以上皆非」時,表現就會下降。 較新的模型通常在性能下降方面較小。
14.71K