Badania NVIDIA właśnie sprawiły, że LLM-y są 53 razy szybsze. 🤯 Wyobraź sobie, że obniżasz swój budżet na wnioskowanie AI o 98%. Ten przełom nie wymaga trenowania nowego modelu od podstaw; aktualizuje twoje istniejące modele do hiper-szybkości, jednocześnie osiągając lub przewyższając dokładność SOTA. Oto jak to działa: Technika nazywa się Post Neural Architecture Search (PostNAS). To rewolucyjny proces dostosowywania wstępnie wytrenowanych modeli. Zamrożenie Wiedzy: Zaczyna się od potężnego modelu (takiego jak Qwen2.5) i blokuje jego rdzeniowe warstwy MLP, zachowując jego inteligencję. Chirurgiczne Zastąpienie: Następnie wykorzystuje wyszukiwanie uwzględniające sprzęt, aby zastąpić większość wolnych warstw pełnej uwagi O(n²) nowym, hiper-efektywnym projektem uwagi liniowej zwanym JetBlock. Optymalizacja dla Przepustowości: Wyszukiwanie zachowuje kilka kluczowych warstw pełnej uwagi w dokładnych pozycjach potrzebnych do złożonego rozumowania, tworząc hybrydowy model zoptymalizowany pod kątem szybkości na GPU H100. Wynik to Jet-Nemotron: AI dostarczająca 2,885 tokenów na sekundę z najwyższej klasy wydajnością modelu i 47 razy mniejszą pamięcią KV. Dlaczego to ma znaczenie dla twojej strategii AI: - Liderzy Biznesu: Przyspieszenie 53 razy przekłada się na około 98% redukcji kosztów wnioskowania na dużą skalę. To zasadniczo zmienia obliczenia ROI dla wdrażania wydajnej AI. - Praktycy: To nie tylko dla centrów danych. Ogromne zyski efektywności i mały ślad pamięci (154MB pamięci podręcznej) umożliwiają wdrażanie modeli na poziomie SOTA na sprzęcie z ograniczoną pamięcią i na krawędzi. - Badacze: PostNAS oferuje nowy, kapitałowo efektywny paradygmat. Zamiast wydawać miliony na wstępne trenowanie, możesz teraz innowować w architekturze, modyfikując istniejące modele, dramatycznie obniżając barierę wejścia do tworzenia nowatorskich, efektywnych LMs.
320,49K