От скромного побочного проекта, созданного для решения собственных проблем оптимизации LLM, до становления де-факто независимым счетчиком в отрасли, Мика Хилл-Смит и Джордж Кэмерон прошли путь запуска Artificial Analysis бесплатно, оплачивая затраты на бенчмаркинг из собственного кармана, и превратили его в то, что многие сейчас называют "новым Гартнером ИИ" для предприятий, лабораторий и разработчиков. Мы встретились с Микой и Джорджем, чтобы разобраться, почему действительно независимый бенчмаркинг так сложен (вариация запросов, насыщение оценок, политика "тайного покупателя"), как развивался Индекс Искусственного Анализа по мере того, как старые бенчмарки ломались, и какие новые метрики действительно важны сейчас, такие как агентные оценки (GDPVal-AA). Мы также углубляемся в экономику "кривой улыбки" ИИ: почему интеллект становится в 100–1000 раз дешевле за единицу, в то время как общие расходы взлетают, как рассуждения и агенты изменяют эффективность токенов, и их ставка на то, что оценки должны постоянно эволюционировать, иначе рискуют обучить отрасль оптимизировать неправильные вещи. @swyx @_micah_h @grmcameron