Cada tarefa de demonstração do LLM é no máximo duas: 1) Uma tarefa pela qual alguém pagaria 2) Uma tarefa que distingue os LLMs de fronteira da geração anterior 3) Algo que você leria com prazer em um tweet
Bons benchmarks fazem 1+2. Meu schtick é 2+3.
86