Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Chamath Palihapitiya
Dios está en los detalles.
La Fundación Americana de Reforma de Demandas calificó a LA como su principal "infierno judicial".
LA es el estandarte para el resto del estado. Así que solo puedes imaginar lo imposible que es hacer negocios en cualquier otro lugar de California.
Una vez que los políticos te dominan y tienen la ley a su favor, entonces vienen por tu dinero y tu propiedad.
Si no me crees, espera a ver las propuestas de la boleta que se revelarán en los próximos días/semanas.
Los políticos de California y sus secuaces han arruinado el mejor lugar de América.

83
Esto es direccionalmente correcto.
El intercambio entre HBM y SRAM en el diseño de arquitecturas fue claro hace muchos años. Aquellos que eligieron HBM están en una cola detrás de Nvidia y Google. Buena suerte con eso.
Más en general, los patrones de decodificación de LLM favorecen SRAM. Pero a diferencia de Gavin, creo que esto crea un espacio para un silicio aún más heterogéneo que apoye modelos de IA en el futuro. No menos.
Sospecho que los dos ejes que importan son precisión frente a velocidad y si puedes diseñar una solución enfocada para un caso de uso específico de IA, habrá un mercado.

Gavin BakerHace 4 horas
Nvidia está comprando Groq por dos razones, en mi opinión.
1) La inferencia se está desagregando en prellenado y decodificación. Las arquitecturas SRAM tienen ventajas únicas en la decodificación para cargas de trabajo donde el rendimiento es principalmente una función del ancho de banda de memoria. Rubin CPX, Rubin y la variante supuesta "Rubin SRAM" derivada de Groq deberían darle a Nvidia la capacidad de mezclar y combinar chips para crear el equilibrio óptimo entre rendimiento y costo para cada carga de trabajo. Rubin CPX está optimizado para ventanas de contexto masivas durante el prellenado como resultado de su capacidad de memoria extremadamente alta con su GDDR DRAM de ancho de banda relativamente bajo. Rubin es el caballo de batalla para el entrenamiento y las cargas de trabajo de inferencia por lotes de alta densidad, con su HBM DRAM que logra un equilibrio entre el ancho de banda de memoria y la capacidad. La "Rubin SRAM" derivada de Groq está optimizada para cargas de trabajo de inferencia de razonamiento agente de ultra-baja latencia como resultado del extremadamente alto ancho de banda de memoria de SRAM a costa de una menor capacidad de memoria. En este último caso, probablemente se utilizará CPX o el Rubin normal para el prellenado.
2) Ha estado claro durante mucho tiempo que las arquitecturas SRAM pueden alcanzar métricas de tokens por segundo mucho más altas que las GPUs, TPUs o cualquier ASIC que hemos visto hasta ahora. Latencia extremadamente baja por usuario individual a expensas del rendimiento por dólar. Hace 18 meses no estaba tan claro si los usuarios finales estaban dispuestos a pagar por esta velocidad (SRAM es más caro por token debido a los tamaños de lote mucho más pequeños). Ahora está claro a partir de los resultados recientes de Cerebras y Groq que los usuarios están dispuestos a pagar por velocidad.
Aumenta mi confianza en que todos los ASIC excepto TPU, AI5 y Trainium eventualmente serán cancelados. Buena suerte compitiendo con las 3 variantes de Rubin y múltiples chips de red asociados. Aunque parece que el ASIC de OpenAI será sorprendentemente bueno (mucho mejor que los ASIC de Meta y Microsoft).
Veamos qué hace AMD. Intel ya se está moviendo en esta dirección (tienen un SKU optimizado para prellenado y compraron SambaNova, que era el competidor de SRAM más débil). Es un poco gracioso que Meta comprara Rivos.
Y Cerebras, donde tengo sesgos, ahora está en una posición muy interesante y altamente estratégica como el último (según el conocimiento público) jugador independiente de SRAM que estaba por delante de Groq en todos los benchmarks públicos. La arquitectura de "rack de muchos chips" de Groq, sin embargo, era mucho más fácil de integrar con la pila de red de Nvidia y quizás incluso dentro de un solo rack, mientras que el WSE de Cerebras casi tiene que ser un rack independiente.
29
Parte superior
Clasificación
Favoritos
