Inverse IFEval: nowe testy benchowe sprawdzające, czy LLM mogą oduczyć się uporczywych nawyków treningowych i podążać za nieintuicyjnymi instrukcjami. - 8 typów wyzwań (np. kontrfakty, wadliwy tekst) - 1k pytań + 23 dziedziny - Ujawnia inercję poznawczą LLM i potrzebę adaptacyjności
17,17K