Nvidia köper Groq av två anledningar enligt mig.   1) Inferens är att deaggregera i prefill och dekodning. SRAM-arkitekturer har unika fördelar vid avkodning för arbetsbelastningar där prestandan främst beror på minnesbandbredden. Rubin CPX, Rubin och den påstådda "Rubin SRAM"-varianten härledd från Groq bör ge Nvidia möjlighet att mixa och matcha chip för att skapa optimal balans mellan prestanda och kostnad för varje arbetsbelastning. Rubin CPX är optimerad för massiva kontextfönster under prefill tack vare extrem hög minneskapacitet med sin relativt låga bandbredd GDDR DRAM. Rubin är arbetshästen för träning och högdensitet, batchade inferensarbetsbelastningar med sin HBM DRAM som balanserar minnesbandbredd och kapacitet. Den Groq-baserade "Rubin SRAM" är optimerad för ultralåg latens agentisk slutsatsinferensarbetsbelastning som ett resultat av SRAM:s extremt höga minnesbandbredd på bekostnad av lägre minneskapacitet. I det senare fallet kommer antingen CPX eller den vanliga Rubin sannolikt att användas för prefill.   2) Det har varit tydligt länge att SRAM-arkitekturer kan nå token-per-sekund-mått mycket högre än GPU:er, TPU:er eller någon ASIC vi hittills sett. Extremt låg latens per enskild användare på bekostnad av genomströmning per dollar. Det var mindre tydligt för 18 månader sedan om slutanvändare var villiga att betala för denna hastighet (SRAM dyrare per token på grund av mycket mindre batchstorlekar). Det är nu tydligt från Cerebras och Groqs senaste resultat att användare är villiga att betala för snabbhet.   Det ökar mitt förtroende för att alla ASIC:er utom TPU, AI5 och Trainium så småningom kommer att bli avbokade. Lycka till med att konkurrera med de tre Rubin-varianterna och flera tillhörande nätverkschip. Även om det låter som att OpenAIs ASIC kommer att vara förvånansvärt bra (mycket bättre än Meta- och Microsoft-ASIC:erna).   Låt oss se vad AMD gör. Intel rör sig redan i den riktningen (de har en prefill-optimerad SKU och köpte SambaNova, som var den svagaste SRAM-konkurrenten). Lite roligt att Meta köpte Rivos. Och Cerebras, där jag är partisk, befinner sig nu i en mycket intressant och mycket strategisk position som den sista (enligt allmän kunskap) oberoende SRAM-aktör som låg före Groq på alla offentliga jämförelsepunkter. Groqs "många chips" rackarkitektur var dock mycket lättare att integrera med Nvidias nätverksstack och kanske till och med inom ett enda rack, medan Cerebras WSE nästan måste vara ett oberoende rack.
För tydlighetens skull, och som vissa har påpekat i svaren, bör jag nämna att Nvidia faktiskt inte förvärvar Grok. Det är ett icke-exklusivt licensavtal där några Grok-ingenjörer ansluter sig till Nvidia. Grok kommer att fortsätta driva sin molnverksamhet som ett oberoende företag som i praktiken är en konkurrent till Nvidia och deras kunder, oavsett om det är hyperskalare eller neocloud. Nät, nät borde vara utmärkt för AI-användare. Mer konkurrens, fler tokens. God jul och symboler till alla.
109