La ricerca di NVIDIA ha appena reso i LLM 53 volte più veloci. 🤯 Immagina di ridurre il tuo budget per l'inferenza AI del 98%. Questa scoperta non richiede di addestrare un nuovo modello da zero; aggiorna quelli esistenti per una velocità iper-rapida mantenendo o superando la precisione SOTA. Ecco come funziona: La tecnica si chiama Post Neural Architecture Search (PostNAS). È un processo rivoluzionario per adattare modelli pre-addestrati. Congela la Conoscenza: Inizia con un modello potente (come Qwen2.5) e blocca i suoi strati MLP principali, preservando la sua intelligenza. Sostituzione Chirurgica: Utilizza quindi una ricerca consapevole dell'hardware per sostituire la maggior parte degli strati di attenzione completa lenti, O(n²), con un nuovo design di attenzione lineare iper-efficiente chiamato JetBlock. Ottimizza per il Throughput: La ricerca mantiene alcuni strati di attenzione completa nelle posizioni esatte necessarie per il ragionamento complesso, creando un modello ibrido ottimizzato per la velocità su GPU H100. Il risultato è Jet-Nemotron: un'AI che fornisce 2.885 token al secondo con prestazioni di modello di alto livello e una cache KV 47 volte più piccola. Perché questo è importante per la tua strategia AI: - Leader Aziendali: Un aumento di velocità di 53 volte si traduce in una riduzione dei costi di circa il 98% per l'inferenza su larga scala. Questo cambia fondamentalmente il calcolo del ROI per il dispiegamento di AI ad alte prestazioni. - Praticanti: Questo non è solo per i data center. I guadagni di efficienza massicci e il ridotto ingombro di memoria (cache di 154MB) rendono possibile il dispiegamento di modelli di livello SOTA su hardware a memoria limitata e edge. - Ricercatori: PostNAS offre un nuovo paradigma efficiente in termini di capitale. Invece di spendere milioni per il pre-addestramento, ora puoi innovare sull'architettura modificando modelli esistenti, abbattendo drasticamente la barriera all'ingresso per la creazione di LMs nuovi ed efficienti.
218,75K