Nvidia está comprando Groq por dos razones, en mi opinión.   1) La inferencia se está desagregando en prellenado y decodificación. Las arquitecturas SRAM tienen ventajas únicas en la decodificación para cargas de trabajo donde el rendimiento es principalmente una función del ancho de banda de memoria. Rubin CPX, Rubin y la variante supuesta "Rubin SRAM" derivada de Groq deberían darle a Nvidia la capacidad de mezclar y combinar chips para crear el equilibrio óptimo entre rendimiento y costo para cada carga de trabajo. Rubin CPX está optimizado para ventanas de contexto masivas durante el prellenado como resultado de su capacidad de memoria extremadamente alta con su GDDR DRAM de ancho de banda relativamente bajo. Rubin es el caballo de batalla para el entrenamiento y las cargas de trabajo de inferencia por lotes de alta densidad, con su HBM DRAM que logra un equilibrio entre el ancho de banda de memoria y la capacidad. La "Rubin SRAM" derivada de Groq está optimizada para cargas de trabajo de inferencia de razonamiento agente de ultra-baja latencia como resultado del extremadamente alto ancho de banda de memoria de SRAM a costa de una menor capacidad de memoria. En este último caso, probablemente se utilizará CPX o el Rubin normal para el prellenado.   2) Ha estado claro durante mucho tiempo que las arquitecturas SRAM pueden alcanzar métricas de tokens por segundo mucho más altas que las GPUs, TPUs o cualquier ASIC que hemos visto hasta ahora. Latencia extremadamente baja por usuario individual a expensas del rendimiento por dólar. Hace 18 meses no estaba tan claro si los usuarios finales estaban dispuestos a pagar por esta velocidad (SRAM es más caro por token debido a los tamaños de lote mucho más pequeños). Ahora está claro a partir de los resultados recientes de Cerebras y Groq que los usuarios están dispuestos a pagar por velocidad.   Aumenta mi confianza en que todos los ASIC excepto TPU, AI5 y Trainium eventualmente serán cancelados. Buena suerte compitiendo con las 3 variantes de Rubin y múltiples chips de red asociados. Aunque parece que el ASIC de OpenAI será sorprendentemente bueno (mucho mejor que los ASIC de Meta y Microsoft).   Veamos qué hace AMD. Intel ya se está moviendo en esta dirección (tienen un SKU optimizado para prellenado y compraron SambaNova, que era el competidor de SRAM más débil). Es un poco gracioso que Meta comprara Rivos. Y Cerebras, donde tengo sesgos, ahora está en una posición muy interesante y altamente estratégica como el último (según el conocimiento público) jugador independiente de SRAM que estaba por delante de Groq en todos los benchmarks públicos. La arquitectura de "rack de muchos chips" de Groq, sin embargo, era mucho más fácil de integrar con la pila de red de Nvidia y quizás incluso dentro de un solo rack, mientras que el WSE de Cerebras casi tiene que ser un rack independiente.
Para mayor claridad y como algunos han señalado en las respuestas, debo mencionar que Nvidia no está adquiriendo a Grok. Es un acuerdo de licencia no exclusivo con algunos ingenieros de Grok uniéndose a Nvidia. Grok continuará operando su negocio en la nube como una empresa independiente que es efectivamente un competidor de Nvidia y sus clientes, ya sean hyperscalers o neocloud. En resumen, debería ser genial para los usuarios de IA. Más competencia, más tokens. Feliz Navidad y Tokens para Todos.
100