Studiu METR Mi-ar plăcea să văd: să conving programatorii să rezolve sarcini cu modelul versiunea A versus B