逆向 IFEval:一个新的基准测试,旨在检验大型语言模型(LLMs)是否能够摆脱顽固的训练习惯并遵循反直觉的指令。 - 8 种挑战类型(例如反事实、缺陷文本) - 1000 个问题 + 23 个领域 - 揭示 LLMs 的认知惯性和适应能力的需求
17.16K