Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Od skromnego projektu pobocznego stworzonego w celu rozwiązania własnych problemów z optymalizacją LLM do stania się de facto niezależnym wskaźnikiem w branży, Micah Hill-Smith i George Cameron przeszli przez proces uruchamiania Artificial Analysis za darmo, pokrywając koszty benchmarków z własnej kieszeni, i przekształcili go w to, co wielu nazywa teraz „nowym Gartnerem AI” dla przedsiębiorstw, laboratoriów i deweloperów.
Usiedliśmy z Micah i George'em, aby omówić, dlaczego naprawdę niezależne benchmarkowanie jest tak trudne (wariancja promptów, nasycenie ewaluacji, polityki tajemniczego klienta), jak rozwijał się Indeks Inteligencji Artificial Analysis, gdy stare benchmarki przestały działać, oraz jakie nowe metryki są teraz naprawdę istotne, takie jak agentowe ewaluacje (GDPVal-AA). Zgłębiamy również ekonomię stojącą za „krzywą uśmiechu” AI: dlaczego inteligencja staje się 100–1000× tańsza na jednostkę, podczas gdy całkowite wydatki eksplodują, jak rozumowanie i agenci zmieniają efektywność tokenów oraz ich zakład, że ewaluacje muszą ciągle ewoluować, w przeciwnym razie ryzykują nauczenie branży optymalizacji pod kątem niewłaściwych rzeczy.
@swyx @_micah_h @grmcameron
Najlepsze
Ranking
Ulubione
