Inverse IFEval: bangku baru yang menguji apakah LLM dapat melepaskan kebiasaan pelatihan yang keras kepala dan mengikuti instruksi yang berlawanan dengan intuisi. - 8 jenis tantangan (misalnya kontrafaktual, teks cacat) - 1k Qs + 23 domain - Mengungkapkan inersia kognitif LLM dan kebutuhan akan kemampuan beradaptasi
17,17K