Von einem improvisierten Nebenprojekt, das entwickelt wurde, um ihre eigenen LLM-Optimierungsprobleme zu lösen, bis hin zu einem unabhängigen Scoreboard, das in der Branche als de facto Standard gilt, durchliefen Micah Hill-Smith und George Cameron den Weg, Artificial Analysis kostenlos zu starten, die Benchmarking-Kosten aus eigener Tasche zu bezahlen und es zu dem zu entwickeln, was viele jetzt als das "neue Gartner der KI" für Unternehmen, Labore und Entwickler bezeichnen. Wir haben uns mit Micah und George zusammengesetzt, um zu erörtern, warum wirklich unabhängiges Benchmarking so schwierig ist (Variabilität der Eingabeaufforderungen, Bewertungsübersättigung, Mystery-Shopper-Richtlinien), wie sich der Artificial Analysis Intelligence Index entwickelt hat, als alte Benchmarks versagten, und welche neuen Metriken jetzt tatsächlich wichtig sind, wie agentische Bewertungen (GDPVal-AA). Wir gehen auch auf die Wirtschaftlichkeit hinter der "Smile Curve" der KI ein: warum Intelligenz pro Einheit 100–1000× günstiger wird, während die Gesamtausgaben explodieren, wie sich das Denken und die Agenten auf die Token-Effizienz auswirken und ihre Wette, dass Bewertungen sich kontinuierlich weiterentwickeln müssen, um zu vermeiden, dass die Branche auf die falschen Dinge optimiert.