Oggi annunciamo il prossimo capitolo di Terminal-Bench con due rilasci: 1. Harbor, un nuovo pacchetto per eseguire rollout di agenti in sandbox su larga scala 2. Terminal-Bench 2.0, una versione più difficile di Terminal-Bench con verifica aumentata