D'un projet secondaire bricolé pour résoudre leurs propres problèmes d'optimisation de LLM à devenir le tableau de bord indépendant de facto de l'industrie, Micah Hill-Smith et George Cameron ont traversé l'arc du lancement d'Artificial Analysis gratuitement, en payant les coûts de benchmarking de leur poche, et en le développant en ce que beaucoup appellent maintenant le "nouveau Gartner de l'IA" pour les entreprises, les laboratoires et les développeurs. Nous nous sommes assis avec Micah et George pour déballer pourquoi le benchmarking véritablement indépendant est si difficile (variance de prompt, saturation d'évaluation, politiques de mystère acheteur), comment l'Artificial Analysis Intelligence Index a évolué alors que les anciens benchmarks se brisaient, et quels nouveaux indicateurs comptent réellement maintenant, tels que les évaluations agentiques (GDPVal-AA). Nous plongeons également dans l'économie derrière la "courbe du sourire" de l'IA : pourquoi l'intelligence devient 100 à 1000 fois moins chère par unité tandis que les dépenses totales explosent, comment le raisonnement et les agents changent l'efficacité des tokens, et leur pari que les évaluations doivent continuellement évoluer ou risquer de former l'industrie à optimiser pour de mauvaises choses. @swyx @_micah_h @grmcameron