Inverse IFEval: нова перевірка того, чи можуть LLM відучитися від впертих тренувальних звичок і слідувати контрінтуїтивним інструкціям. - 8 типів викликів (наприклад, контрфактуали, недосконалий текст) - 1k Qs + 23 домени - Виявляє когнітивну інерцію та потребу ЛМ у адаптивності
17,16K