Hver LLM-demooppgave er maksimalt to: 1) En oppgave noen ville betalt penger for 2) En oppgave som skiller grense-LLM-er fra forrige generasjon 3) Noe du gjerne vil lese i en tweet
Gode benchmarks gjør 1+2. Min schtick er 2+3.
56