Я использую код claude (opus 4.5) уже три дня, время от времени пытаясь разобраться с классическим статистическим экспериментом Он часто выдает хакерские идеи, запускает симуляции с тонкими ошибками или выбирает странные вырожденные гиперпараметры, чтобы вознаградить хак Также, когда он проводит эксперимент, у него действительно плохой детектор чепухи, и он передает мне результаты, которые не проходят проверку на правдоподобие Довольно удивительно, учитывая мой опыт с claude в других областях Я добился прогресса в улучшении системы, но часть этого просто в том, что модель, похоже, плохо справляется с экспериментальной статистикой вне выборки.