每个 LLM 演示任务最多有两个: 1) 一项有人愿意付钱的任务 2) 一项能够区分前沿 LLM 和上一代的任务 3) 一些你会乐意在推特上阅读的内容
好的基准做1+2。我的特色是2+3。
61