Model baru & harness baru +12% untuk eval internal 2,1x lebih cepat