Cada tarefa de demonstração de LLM é no máximo duas: 1) Uma tarefa pela qual alguém pagaria dinheiro 2) Uma tarefa que distingue os LLMs de fronteira da geração anterior 3) Algo que você leria com prazer em um tweet
Bons benchmarks fazem 1+2. O meu truque é 2+3.
73