Забавно бачити, як компанії посилаються на Terminalbench Ми подивилися на це на самому початку, коли шукали Evals, і виявили, що більшість тестів – це академічні головоломки, а речі з «реального світу» дуже надумані Тому зараз для мене це негативний сигнал