Každá ukázková úloha LLM je maximálně dvě: 1) Úkol, za který by někdo zaplatil peníze 2) Úkol, který odlišuje hraniční LLM od předchozí generace 3) Něco, co byste si rádi přečetli v tweetu
Dobré benchmarky jsou 1+2. Můj schtick je 2+3.
57