Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Fra et rotete sideprosjekt bygget for å løse sine egne LLM-optimaliseringsproblemer til å bli bransjens de facto uavhengige resultattavle, gikk Micah Hill-Smith og George Cameron gjennom prosessen med å lansere kunstig analyse gratis, betale benchmarkingkostnader av egen lomme, og utvikle det til det mange nå kaller «den nye Gartner for AI» for bedrifter. laboratorier og utviklere.
Vi satte oss ned med Micah og George for å forklare hvorfor virkelig uavhengig benchmarking er så vanskelig (prompt varians, eval-metning, mystery shopper-politikk), hvordan Artificial Analysis Intelligence Index utviklet seg etter hvert som gamle benchmarks brøt sammen, og hvilke nye måleparametere som faktisk betyr noe nå, som agentiske evalueringer (GDPVal-AA). Vi dykker også ned i økonomien bak «smilekurven» i AI: hvorfor intelligens blir 100–1000 × billigere per enhet mens totalforbruket eksploderer, hvordan resonnement og agenter endrer token-effektiviteten, og deres veddemål om at evalueringer må utvikle seg kontinuerlig eller risikere å trene industrien til å optimalisere for feil ting.
@swyx @_micah_h @grmcameron
Topp
Rangering
Favoritter
