Nvidia kjøper Groq av to grunner etter min mening.   1) Inferens er deaggregasjon i prefill og dekoding. SRAM-arkitekturer har unike fordeler i dekoding for arbeidsbelastninger der ytelsen primært avhenger av minnebåndbredde. Rubin CPX, Rubin og den antatte "Rubin SRAM"-varianten som er avledet fra Groq bør gi Nvidia muligheten til å mikse og matche brikker for å skape optimal balanse mellom ytelse og kostnad for hver arbeidsbelastning. Rubin CPX er optimalisert for massive kontekstvinduer under prefill som følge av svært høy minnekapasitet med sin relativt lave båndbredde GDDR DRAM. Rubin er arbeidshesten for trening og høy-tetthet, batch-inferensarbeidsbelastninger med sin HBM DRAM som balanserer minnebåndbredde og kapasitet. Den Groq-avledede "Rubin SRAM" er optimalisert for ultralav-latens agentisk resonnements-inferensarbeidsbelastning som følge av SRAMs ekstremt høye minnebåndbredde på bekostning av lavere minnekapasitet. I sistnevnte tilfelle vil enten CPX eller vanlig Rubin sannsynligvis bli brukt som prefill.   2) Det har lenge vært klart at SRAM-arkitekturer kan nå token-per sekund-målinger mye høyere enn GPU-er, TPU-er eller noen ASIC vi hittil har sett. Ekstremt lav latens per enkelt bruker på bekostning av gjennomstrømning per dollar. Det var mindre klart for 18 måneder siden om sluttbrukere var villige til å betale for denne hastigheten (SRAM er dyrere per token på grunn av mye mindre batchstørrelser). Det er nå helt klart fra Cerebras og Groqs nylige resultater at brukerne er villige til å betale for fart.   Det øker min tillit til at alle ASIC-er unntatt TPU, AI5 og Trainium til slutt vil bli kansellert. Lykke til med å konkurrere med de tre Rubin-variantene og flere tilhørende nettverksbrikker. Selv om det høres ut som OpenAIs ASIC vil være overraskende god (mye bedre enn Meta- og Microsoft-ASIC-ene).   La oss se hva AMD gjør. Intel beveger seg allerede i denne retningen (de har en prefill-optimalisert SKU og kjøpte SambaNova, som var den svakeste SRAM-konkurrenten). Litt morsomt at Meta kjøpte Rivos. Og Cerebras, hvor jeg er partisk, er nå i en veldig interessant og svært strategisk posisjon som den siste (ifølge offentlig kunnskap) uavhengige SRAM-aktør som lå foran Groq på alle offentlige referansepunkter. Groqs «mange-chip»-rackarkitektur var imidlertid mye enklere å integrere med Nvidias nettverksstakk, og kanskje til og med i ett enkelt rack, mens Cerebras' WSE nesten må være et uavhengig rack.
For klarhetens skyld, og som noen har påpekt i svarene, bør jeg nevne at Nvidia faktisk ikke kjøper opp Grok. Det er en ikke-eksklusiv lisensavtale med noen Grok-ingeniører som slutter seg til Nvidia. Grok vil fortsette å drive sin skyvirksomhet som et uavhengig selskap som i praksis er en konkurrent til Nvidia og deres kunder, enten det er hyperscaler eller neocloud. Nett, nett bør være flott for AI-brukere. Mer konkurranse, flere tokens. God jul og gavegaver til alle.
102