De um projeto paralelo desorganizado criado para resolver seus próprios problemas de otimização de LLMs até se tornar o placar independente de fato da indústria, Micah Hill-Smith e George Cameron passaram pelo arco de lançar a Análise Artificial gratuitamente, pagar os custos de benchmarking do próprio bolso e expandi-la para o que muitos hoje chamam de "novo Gartner da IA" para empresas, laboratórios e desenvolvedores. Conversamos com Micah e George para explicar por que benchmarking verdadeiramente independente é tão difícil (variância rápida, saturação de avaliação, políticas de mystery-shopper), como o Índice de Inteligência em Análise Artificial evoluiu à medida que antigos benchmarks quebraram, e quais novas métricas realmente importam agora, como avaliações agenticas (GDPVal-AA). Também exploramos a economia por trás da "curva do sorriso" da IA: por que a inteligência está ficando 100–1000× mais barata por unidade enquanto o gasto total explode, como o raciocínio e os agentes mudam a eficiência dos tokens, e a aposta deles de que as avaliações precisam evoluir continuamente ou correm o risco de treinar a indústria para otimizar para as coisas erradas. @swyx @_micah_h @grmcameron