Klasik bir istatistik deneyi üzerinde çalışmaya çalışarak üç gündür ara ara Claude Code (opus 4.5) kullanıyorum Genellikle hack gibi fikirler üretiyor, ince hatalarla simülasyonlar yapıyor ya da hack'i ödüllendirmek için garip, dejenere hiperparametreler seçiyor Ayrıca bir deney yaptığında gerçekten kötü bir saçmalık dedektörü var ve koku testini geçmeyen sonuçları bana iletiyor Claude ile diğer alanlardaki deneyimlerim göz önüne alındığında oldukça şaşırtıcıyım Harness'i geliştirme konusunda ilerleme kaydettim ama bunun bir kısmı modelin örneklem dışı deneysel istatistiklerde kötü görünmesi