Nvidia kupuje Groq z dwóch powodów, moim zdaniem.   1) Inferencja rozdziela się na prefill i dekodowanie. Architektury SRAM mają unikalne zalety w dekodowaniu dla obciążeń, w których wydajność jest głównie funkcją przepustowości pamięci. Rubin CPX, Rubin oraz domniemana odmiana „Rubin SRAM” pochodząca z Groq powinny dać Nvidia możliwość łączenia i dopasowywania chipów, aby stworzyć optymalną równowagę między wydajnością a kosztami dla każdego obciążenia. Rubin CPX jest zoptymalizowany do ogromnych okien kontekstowych podczas prefill w wyniku super wysokiej pojemności pamięci przy stosunkowo niskiej przepustowości GDDR DRAM. Rubin jest koniem roboczym dla treningu i obciążeń inferencyjnych o wysokiej gęstości, przetwarzanych w partiach, z jego HBM DRAM, który osiąga równowagę między przepustowością pamięci a pojemnością. Pochodząca z Groq „Rubin SRAM” jest zoptymalizowana do ultra-niskiej latencji w obciążeniach inferencyjnych związanych z agentami, w wyniku ekstremalnie wysokiej przepustowości pamięci SRAM kosztem niższej pojemności pamięci. W tym ostatnim przypadku, prawdopodobnie użyty zostanie albo CPX, albo normalny Rubin do prefill.   2) Od dłuższego czasu jasne jest, że architektury SRAM mogą osiągać metryki tokenów na sekundę znacznie wyższe niż GPU, TPU czy jakiekolwiek ASIC, które dotychczas widzieliśmy. Ekstremalnie niska latencja dla pojedynczego użytkownika kosztem przepustowości na dolara. 18 miesięcy temu mniej jasne było, czy użytkownicy końcowi są gotowi płacić za tę prędkość (SRAM jest droższy na token z powodu znacznie mniejszych rozmiarów partii). Teraz jest to oczywiście jasne z ostatnich wyników Cerebras i Groq, że użytkownicy są gotowi płacić za prędkość.   Zwiększa to moją pewność, że wszystkie ASIC-y, z wyjątkiem TPU, AI5 i Trainium, ostatecznie zostaną anulowane. Powodzenia w rywalizacji z 3 wariantami Rubina i wieloma powiązanymi chipami sieciowymi. Chociaż wydaje się, że ASIC OpenAI będzie zaskakująco dobry (znacznie lepszy niż ASIC Meta i Microsoftu).   Zobaczymy, co zrobi AMD. Intel już zmierza w tym kierunku (mają SKU zoptymalizowane do prefill i zakupili SambaNova, który był najsłabszym konkurentem SRAM). Trochę zabawne, że Meta kupiła Rivos. A Cerebras, gdzie jestem stronniczy, jest teraz w bardzo interesującej i strategicznej pozycji jako ostatni (zgodnie z publiczną wiedzą) niezależny gracz SRAM, który był przed Groq we wszystkich publicznych benchmarkach. Architektura „wiele chipów” Groq była jednak znacznie łatwiejsza do zintegrowania z stosami sieciowymi Nvidii, a być może nawet w ramach jednego racka, podczas gdy WSE Cerebras prawie musi być niezależnym rackiem.
Dla jasności i jak niektórzy zauważyli w odpowiedziach, powinienem zaznaczyć, że Nvidia nie przejmuje Grok. To jest umowa licencyjna na zasadzie non-exclusive, w której niektórzy inżynierowie Grok dołączają do Nvidii. Grok będzie kontynuować działalność swojej chmury jako niezależna firma, która jest w rzeczywistości konkurentem Nvidii oraz ich klientów, niezależnie od tego, czy są to hyperscalerzy, czy neocloud. Ogólnie rzecz biorąc, powinno to być świetne dla użytkowników AI. Więcej konkurencji, więcej tokenów. Wesołych Świąt i Tokenów dla Wszystkich.
107