Cada tarea de demostración de LLM es como máximo dos: 1) Una tarea por la que alguien pagaría dinero 2) Una tarea que distingue a los LLM fronterizos de la generación anterior 3) Algo que con gusto leerías en un tweet
Los buenos puntos de referencia hacen 1 + 2. Mi schtick es 2+3.
65