Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Badania NVIDIA właśnie sprawiły, że LLM-y są 53 razy szybsze. 🤯
Wyobraź sobie, że obniżasz swój budżet na wnioskowanie AI o 98%.
Ten przełom nie wymaga trenowania nowego modelu od podstaw; aktualizuje twoje istniejące modele do hiper-szybkości, jednocześnie osiągając lub przewyższając dokładność SOTA.
Oto jak to działa:
Technika nazywa się Post Neural Architecture Search (PostNAS). To rewolucyjny proces dostosowywania wstępnie wytrenowanych modeli.
Zamrożenie Wiedzy: Zaczyna się od potężnego modelu (takiego jak Qwen2.5) i blokuje jego rdzeniowe warstwy MLP, zachowując jego inteligencję.
Chirurgiczne Zastąpienie: Następnie wykorzystuje wyszukiwanie uwzględniające sprzęt, aby zastąpić większość wolnych warstw pełnej uwagi O(n²) nowym, hiper-efektywnym projektem uwagi liniowej zwanym JetBlock.
Optymalizacja dla Przepustowości: Wyszukiwanie zachowuje kilka kluczowych warstw pełnej uwagi w dokładnych pozycjach potrzebnych do złożonego rozumowania, tworząc hybrydowy model zoptymalizowany pod kątem szybkości na GPU H100.
Wynik to Jet-Nemotron: AI dostarczająca 2,885 tokenów na sekundę z najwyższej klasy wydajnością modelu i 47 razy mniejszą pamięcią KV.
Dlaczego to ma znaczenie dla twojej strategii AI:
- Liderzy Biznesu: Przyspieszenie 53 razy przekłada się na około 98% redukcji kosztów wnioskowania na dużą skalę. To zasadniczo zmienia obliczenia ROI dla wdrażania wydajnej AI.
- Praktycy: To nie tylko dla centrów danych. Ogromne zyski efektywności i mały ślad pamięci (154MB pamięci podręcznej) umożliwiają wdrażanie modeli na poziomie SOTA na sprzęcie z ograniczoną pamięcią i na krawędzi.
- Badacze: PostNAS oferuje nowy, kapitałowo efektywny paradygmat. Zamiast wydawać miliony na wstępne trenowanie, możesz teraz innowować w architekturze, modyfikując istniejące modele, dramatycznie obniżając barierę wejścia do tworzenia nowatorskich, efektywnych LMs.

320,49K
Najlepsze
Ranking
Ulubione