Inverse IFEval: ein neuer Benchmark, der testet, ob LLMs hartnäckige Trainingsgewohnheiten verlernen und kontraintuitive Anweisungen befolgen können. - 8 Herausforderungsarten (z. B. kontrafaktische Szenarien, fehlerhafte Texte) - 1k Fragen + 23 Bereiche - Enthüllt die kognitive Trägheit von LLMs und deren Bedarf an Anpassungsfähigkeit
17,17K