Inverzní IFEval: nová lavice testující, zda se LLM mohou odnaučit tvrdohlavým tréninkovým návykům a řídit se neintuitivními pokyny. - 8 typů výzev (např. kontrafaktuály, chybný text) - 1k Qs + 23 domén - Odhaluje kognitivní setrvačnost a potřebu přizpůsobivosti LLM
17,16K