另一个关于大型语言模型(LLMs)持续存在的问题的例子。它们在标准医学问题上表现得很好,但当正确答案被替换为“以上皆非”时,表现就会下降。 较新的模型通常在性能下降方面较小。
14.71K