Da un progetto secondario creato per risolvere i propri problemi di ottimizzazione LLM a diventare il punteggio indipendente di riferimento del settore, Micah Hill-Smith e George Cameron hanno attraversato il percorso di lancio di Artificial Analysis gratuitamente, pagando di tasca propria i costi di benchmarking e facendolo crescere in quello che molti ora chiamano il "nuovo Gartner dell'AI" per imprese, laboratori e sviluppatori. Ci siamo seduti con Micah e George per analizzare perché il benchmarking veramente indipendente sia così difficile (varianza dei prompt, saturazione delle valutazioni, politiche di mystery shopper), come è evoluto l'Artificial Analysis Intelligence Index man mano che i vecchi benchmark si rompevano, e quali nuove metriche contano davvero ora, come le valutazioni agentiche (GDPVal-AA). Ci addentriamo anche nell'economia dietro la "curva del sorriso" dell'AI: perché l'intelligenza sta diventando 100–1000× più economica per unità mentre la spesa totale esplode, come il ragionamento e gli agenti cambiano l'efficienza dei token, e la loro scommessa che le valutazioni devono evolversi continuamente o rischiare di addestrare l'industria a ottimizzare per le cose sbagliate. @swyx @_micah_h @grmcameron