Penelitian NVIDIA baru saja membuat LLM 53x lebih cepat. 🤯 Bayangkan memangkas anggaran inferensi AI Anda sebesar 98%. Terobosan ini tidak memerlukan pelatihan model baru dari awal; itu meningkatkan yang sudah ada untuk kecepatan tinggi sambil mencocokkan atau mengalahkan akurasi SOTA. Begini cara kerjanya: Teknik ini disebut Post Neural Architecture Search (PostNAS). Ini adalah proses revolusioner untuk retrofit model yang telah dilatih sebelumnya. Bekukan Pengetahuan: Ini dimulai dengan model yang kuat (seperti Qwen2.5) dan mengunci lapisan MLP intinya, mempertahankan kecerdasannya. Penggantian Bedah: Kemudian menggunakan pencarian sadar perangkat keras untuk mengganti sebagian besar lapisan perhatian penuh O(n²) yang lambat dengan desain perhatian linier baru yang sangat efisien yang disebut JetBlock. Optimalkan untuk Throughput: Pencarian menyimpan beberapa lapisan perhatian penuh utama di posisi yang tepat yang diperlukan untuk penalaran yang kompleks, menciptakan model hibrida yang dioptimalkan untuk kecepatan pada GPU H100. Hasilnya adalah Jet-Nemotron: AI yang menghasilkan 2.885 token per detik dengan kinerja model tingkat atas dan cache KV 47x lebih kecil. Mengapa hal ini penting bagi strategi AI Anda: - Pemimpin Bisnis: Kecepatan 53x diterjemahkan menjadi pengurangan biaya ~98% untuk inferensi dalam skala besar. Ini secara fundamental mengubah perhitungan ROI untuk menerapkan AI berkinerja tinggi. - Praktisi: Ini bukan hanya untuk pusat data. Peningkatan efisiensi yang besar dan jejak memori yang kecil (cache 154MB) memungkinkan untuk menerapkan model tingkat SOTA pada perangkat keras yang dibatasi memori dan edge. - Peneliti: PostNAS menawarkan paradigma baru yang efisien modal. Alih-alih menghabiskan jutaan dolar untuk pra-pelatihan, Anda sekarang dapat berinovasi pada arsitektur dengan memodifikasi model yang ada, secara dramatis menurunkan penghalang masuk untuk membuat LM baru dan efisien.
218,75K