每個 LLM 演示任務最多有兩個: 1) 一個有人願意付錢的任務 2) 一個能區分前沿 LLM 與上一代的任務 3) 一個你會樂意在推特上閱讀的內容
好的基準測試做1+2。我的拿手好戲是2+3。
62