Heute kündigen wir das nächste Kapitel von Terminal-Bench mit zwei Veröffentlichungen an:
1. Harbor, ein neues Paket für die Durchführung von sandboxed Agenten-Rollouts in großem Maßstab
2. Terminal-Bench 2.0, eine härtere Version von Terminal-Bench mit erhöhter Verifizierung