De um projeto secundário improvisado criado para resolver os seus próprios problemas de otimização de LLM a tornar-se o placar independente de facto da indústria, Micah Hill-Smith e George Cameron passaram pelo arco de lançar a Artificial Analysis gratuitamente, pagando os custos de benchmarking do próprio bolso, e crescendo até se tornar o que muitos agora chamam de "novo Gartner de IA" para empresas, laboratórios e desenvolvedores. Sentámo-nos com Micah e George para desvendar por que o benchmarking verdadeiramente independente é tão difícil (variância de prompt, saturação de avaliação, políticas de comprador misterioso), como o Índice de Inteligência da Artificial Analysis evoluiu à medida que os benchmarks antigos falharam, e quais novas métricas realmente importam agora, como as avaliações agentivas (GDPVal-AA). Também exploramos a economia por trás da "curva do sorriso" da IA: por que a inteligência está a ficar 100–1000× mais barata por unidade enquanto o gasto total explode, como o raciocínio e os agentes mudam a eficiência dos tokens, e a sua aposta de que as avaliações devem evoluir continuamente ou arriscar-se a treinar a indústria para otimizar as coisas erradas. @swyx @_micah_h @grmcameron