A trebuit să eliminăm evaluarea τ2-bench a companiilor aeriene din tabelul de benchmark-uri pentru că Opus 4.5 a încălcat-o fiind prea isteață. Reperul simulează un agent de servicii pentru clienți al unei companii aeriene. Într-un caz de testare, un client aflat în dificultate sună dorind să-și schimbe zborul, dar are un bilet economic de bază. Politica companiei aeriene simulate prevede că biletele de bază economy nu pot fi modificate. Răspunsul "corect" este că modelul refuză cererea. În schimb, Opus 4.5 a găsit o portiță în politică. A modernizat cabina, apoi a modificat zborurile. Ajutând clientul și respectând politica, dar tehnic eșuând cazul de testare. Transcriere a modelului:
Citește povestea completă în fișa noastră de model:
707,36K