Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La ricerca di NVIDIA ha appena reso i LLM 53 volte più veloci. 🤯
Immagina di ridurre il tuo budget per l'inferenza AI del 98%.
Questa scoperta non richiede di addestrare un nuovo modello da zero; aggiorna quelli esistenti per una velocità iper-rapida mantenendo o superando la precisione SOTA.
Ecco come funziona:
La tecnica si chiama Post Neural Architecture Search (PostNAS). È un processo rivoluzionario per adattare modelli pre-addestrati.
Congela la Conoscenza: Inizia con un modello potente (come Qwen2.5) e blocca i suoi strati MLP principali, preservando la sua intelligenza.
Sostituzione Chirurgica: Utilizza quindi una ricerca consapevole dell'hardware per sostituire la maggior parte degli strati di attenzione completa lenti, O(n²), con un nuovo design di attenzione lineare iper-efficiente chiamato JetBlock.
Ottimizza per il Throughput: La ricerca mantiene alcuni strati di attenzione completa nelle posizioni esatte necessarie per il ragionamento complesso, creando un modello ibrido ottimizzato per la velocità su GPU H100.
Il risultato è Jet-Nemotron: un'AI che fornisce 2.885 token al secondo con prestazioni di modello di alto livello e una cache KV 47 volte più piccola.
Perché questo è importante per la tua strategia AI:
- Leader Aziendali: Un aumento di velocità di 53 volte si traduce in una riduzione dei costi di circa il 98% per l'inferenza su larga scala. Questo cambia fondamentalmente il calcolo del ROI per il dispiegamento di AI ad alte prestazioni.
- Praticanti: Questo non è solo per i data center. I guadagni di efficienza massicci e il ridotto ingombro di memoria (cache di 154MB) rendono possibile il dispiegamento di modelli di livello SOTA su hardware a memoria limitata e edge.
- Ricercatori: PostNAS offre un nuovo paradigma efficiente in termini di capitale. Invece di spendere milioni per il pre-addestramento, ora puoi innovare sull'architettura modificando modelli esistenti, abbattendo drasticamente la barriera all'ingresso per la creazione di LMs nuovi ed efficienti.

218,75K
Principali
Ranking
Preferiti