逆向 IFEval:一個新的基準測試,旨在檢驗大型語言模型(LLMs)是否能夠擺脫頑固的訓練習慣並遵循反直覺的指令。 - 8 種挑戰類型(例如反事實、缺陷文本) - 1000 個問題 + 23 個領域 - 揭示 LLMs 的認知慣性和適應能力的需求
17.16K