看到公司引用terminalbench真是有趣 我们在寻找评估时早期就看过它,发现大多数测试都是学术难题,而“现实世界”的内容非常牵强 所以现在对我来说这是一个负面信号