從一個為了解決他們自己的 LLM 優化問題而建立的草根側項目,到成為行業事實上的獨立計分板,Micah Hill-Smith 和 George Cameron 經歷了推出人工分析的過程,免費支付基準測試費用,並將其發展成為許多人現在稱之為企業、實驗室和開發者的「新 Gartner 的 AI」。 我們與 Micah 和 George 坐下來,深入探討為什麼真正獨立的基準測試如此困難(提示變異、評估飽和、神秘購物者政策),人工分析智能指數是如何隨著舊基準的破裂而演變的,以及現在哪些新指標實際上是重要的,例如代理評估(GDPVal-AA)。我們還深入探討了 AI 的「微笑曲線」背後的經濟學:為什麼智能的單位成本變得便宜 100–1000 倍,而總支出卻在爆炸性增長,推理和代理如何改變令牌效率,以及他們的賭注,即評估必須不斷演變,否則將冒著訓練行業優化錯誤事物的風險。 @swyx @_micah_h @grmcameron