De un proyecto secundario improvisado creado para resolver sus propios problemas de optimización de LLM a convertirse en el marcador independiente de facto de la industria, Micah Hill-Smith y George Cameron pasaron por el proceso de lanzar Artificial Analysis de forma gratuita, pagando los costos de benchmarking de su propio bolsillo, y creciendo hasta lo que muchos ahora llaman el "nuevo Gartner de la IA" para empresas, laboratorios y desarrolladores. Nos sentamos con Micah y George para desglosar por qué el benchmarking verdaderamente independiente es tan difícil (varianza de prompts, saturación de evaluaciones, políticas de comprador misterioso), cómo evolucionó el Índice de Inteligencia de Artificial Analysis a medida que los viejos benchmarks se rompieron, y qué nuevas métricas realmente importan ahora, como las evaluaciones agenticas (GDPVal-AA). También profundizamos en la economía detrás de la "curva de sonrisa" de la IA: por qué la inteligencia se está volviendo de 100 a 1000 veces más barata por unidad mientras que el gasto total explota, cómo el razonamiento y los agentes cambian la eficiencia de tokens, y su apuesta de que las evaluaciones deben evolucionar continuamente o arriesgarse a entrenar a la industria para optimizar por las cosas equivocadas. @swyx @_micah_h @grmcameron