Inverse IFEval: en ny benk som tester om LLM-er kan avlære gjenstridige treningsvaner og følge kontraintuitive instruksjoner. - 8 utfordringstyper (f.eks. kontrafaktiske forhold, feilaktig tekst) - 1k Qs + 23 domener - Avslører LLM-ers kognitive treghet og behov for tilpasningsevne
17,16K