Hoje, estamos a anunciar o próximo capítulo do Terminal-Bench com dois lançamentos: 1. Harbor, um novo pacote para executar implementações de agentes em sandbox em grande escala 2. Terminal-Bench 2.0, uma versão mais difícil do Terminal-Bench com verificação aumentada