逆 IFEval: LLM が頑固なトレーニング習慣を忘れ、直感に反する指示に従うことができるかどうかをテストする新しいベンチ。 - 8つのチャレンジタイプ(例:反事実、欠陥のあるテキスト) - 1k Qs + 23 ドメイン - LLMの認知的慣性と適応性の必要性を明らかにする
17.16K