Inverse IFEval: en ny bänk som testar om LLM:er kan lära sig av envisa träningsvanor och följa kontraintuitiva instruktioner. - 8 typer av utmaningar (t.ex. kontrafaktiska, felaktig text) - 1k Qs + 23 domäner - Avslöjar LLM:s kognitiva tröghet och behov av anpassningsförmåga