来自FAIR的新研究:代码世界模型(CWM),一个32B参数的研究模型 我们鼓励研究界研究这个开放权重模型! 对于好奇的人,pass@1评估: 在SWE-bench Verified上为65.8%, 在LiveCodeBench上为68.6%, 在Math-500上为96.6% 在AIME 2024上为76.0%