Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cercetarea NVIDIA tocmai a făcut LLM-urile de 53 de ori mai rapide. 🤯
Imaginați-vă că reduceți bugetul de inferență AI cu 98%.
Această descoperire nu necesită antrenarea unui nou model de la zero; le îmbunătățește pe cele existente pentru hiper-viteză în timp ce potrivește sau bate precizia SOTA.
Iată cum funcționează:
Tehnica se numește Post Neural Architecture Search (PostNAS). Este un proces revoluționar pentru modernizarea modelelor pre-antrenate.
Înghețați cunoștințele: Începe cu un model puternic (cum ar fi Qwen 2.5) și blochează straturile MLP de bază, păstrându-i inteligența.
Înlocuire chirurgicală: Apoi folosește o căutare hardware pentru a înlocui majoritatea straturilor lente, O(n²) cu atenție deplină cu un nou design de atenție liniară hiper-eficient numit JetBlock.
Optimizați pentru randament: Căutarea păstrează câteva straturi cheie de atenție deplină în pozițiile exacte necesare pentru raționamentul complex, creând un model hibrid optimizat pentru viteză pe GPU-urile H100.
Rezultatul este Jet-Nemotron: o inteligență artificială care oferă 2.885 de jetoane pe secundă cu performanțe de top și un cache KV de 47 de ori mai mic.
De ce contează acest lucru pentru strategia ta de inteligență artificială:
- Lideri de afaceri: O accelerare de 53 de ori se traduce printr-o reducere a costurilor de ~98% pentru inferență la scară. Acest lucru schimbă fundamental calculul ROI pentru implementarea AI de înaltă performanță.
- Practicieni: Acest lucru nu este doar pentru centrele de date. Câștigurile masive de eficiență și amprenta de memorie mică (cache de 154 MB) fac posibilă implementarea modelelor de nivel SOTA pe hardware cu memorie limitată și edge.
- Cercetători: PostNAS oferă o paradigmă nouă, eficientă din punct de vedere al capitalului. În loc să cheltuiți milioane pe pre-instruire, acum puteți inova în arhitectură prin modificarea modelelor existente, reducând dramatic bariera de intrare pentru crearea de LM-uri noi și eficiente.

421,39K
Limită superioară
Clasament
Favorite