Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Da un progetto secondario creato per risolvere i propri problemi di ottimizzazione LLM a diventare il punteggio indipendente di riferimento del settore, Micah Hill-Smith e George Cameron hanno attraversato il percorso di lancio di Artificial Analysis gratuitamente, pagando di tasca propria i costi di benchmarking e facendolo crescere in quello che molti ora chiamano il "nuovo Gartner dell'AI" per imprese, laboratori e sviluppatori.
Ci siamo seduti con Micah e George per analizzare perché il benchmarking veramente indipendente sia così difficile (varianza dei prompt, saturazione delle valutazioni, politiche di mystery shopper), come è evoluto l'Artificial Analysis Intelligence Index man mano che i vecchi benchmark si rompevano, e quali nuove metriche contano davvero ora, come le valutazioni agentiche (GDPVal-AA). Ci addentriamo anche nell'economia dietro la "curva del sorriso" dell'AI: perché l'intelligenza sta diventando 100–1000× più economica per unità mentre la spesa totale esplode, come il ragionamento e gli agenti cambiano l'efficienza dei token, e la loro scommessa che le valutazioni devono evolversi continuamente o rischiare di addestrare l'industria a ottimizzare per le cose sbagliate.
@swyx @_micah_h @grmcameron
Principali
Ranking
Preferiti
