Từ một dự án phụ nhỏ bé được xây dựng để giải quyết các vấn đề tối ưu hóa LLM của chính họ đến việc trở thành bảng điểm độc lập chính thức của ngành, Micah Hill-Smith và George Cameron đã trải qua hành trình ra mắt Artificial Analysis miễn phí, tự chi trả chi phí đánh giá và phát triển nó thành cái mà nhiều người hiện nay gọi là "Gartner mới của AI" cho các doanh nghiệp, phòng thí nghiệm và nhà phát triển. Chúng tôi đã ngồi xuống với Micah và George để khám phá lý do tại sao việc đánh giá độc lập thực sự lại khó khăn như vậy (biến thể prompt, bão hòa đánh giá, chính sách người mua bí mật), cách mà Chỉ số Trí tuệ Phân tích Nhân tạo đã phát triển khi các tiêu chuẩn cũ bị phá vỡ, và những chỉ số mới nào thực sự quan trọng bây giờ như đánh giá agentic (GDPVal-AA). Chúng tôi cũng đi sâu vào kinh tế học đằng sau "đường cong nụ cười" của AI: tại sao trí tuệ đang trở nên rẻ hơn 100–1000 lần mỗi đơn vị trong khi tổng chi tiêu bùng nổ, cách mà lý luận và các tác nhân thay đổi hiệu quả token, và cược của họ rằng các đánh giá phải liên tục phát triển hoặc có nguy cơ đào tạo ngành công nghiệp để tối ưu hóa cho những điều sai lầm. @swyx @_micah_h @grmcameron