自社のLLM最適化問題を解決するために作られた雑多なサイドプロジェクトから、業界の事実上の独立スコアボードへと成長するまで、Micah Hill-SmithとGeorge Cameronは、Artificial Analysisを無料で立ち上げ、ベンチマーク費用を自費で支払い、そして多くの人が企業向けに「新しいガートナー・オブ・AI」と呼ぶものへと成長させるという道を歩んできました。 ラボや開発者。 私たちはMicahとGeorgeに話を聞き、なぜ真に独立したベンチマークが難しいのか(プロンプト分散、評価飽和、ミステリーショッパーポリシー)、古いベンチマークが崩れながら人工分析知能指数(AGI)がどのように進化したのか、そしてエージェント評価(GDPVal-AA)のような新しい指標が今本当に重要なものとは何かを掘り下げました。また、AIの「スマイルカーブ」の背後にある経済学についても掘り下げます。なぜ知能は1単位あたり100〜1000×安くなっている一方で総支出は爆発的に増加しているのか、推論やエージェントがどのようにトークン効率を変えるのか、そして評価は継続的に進化しなければ業界を誤った最適化に訓練するリスクがあるという彼らの賭けについても掘り下げます。 @swyx @_micah_h @grmcameron