Episodio 1: Nvidia "Adquiere" Groq De @vikramskr y @theaustinlyons Puntos clave: - Las GPUs no están muertas. HBM no está muerto. - Los LPUs resuelven un problema diferente: inferencia determinista y de ultra-baja latencia para modelos pequeños. - Los grandes modelos de frontera aún requieren sistemas basados en HBM. - El movimiento de Nvidia expande su área de superficie de cartera de inferencia en lugar de reemplazar las GPUs. - El futuro de la infraestructura de IA es la optimización específica de carga de trabajo y el despliegue impulsado por el TCO. Temas clave: - Lo que Nvidia realmente compró de Groq y por qué no es una adquisición tradicional - Por qué el acuerdo provocó afirmaciones de que las GPUs y HBM son obsoletas - Compensaciones arquitectónicas entre GPUs, TPUs, XPUs y LPUs - SRAM vs HBM. Velocidad, capacidad, costo y realidades de la cadena de suministro - Fundamentos de Groq LPU: VLIW, ejecución programada por compilador, determinismo, ultra-baja latencia - Por qué los LPUs tienen dificultades con modelos grandes y dónde sobresalen en su lugar - Casos de uso prácticos para inferencia de hiper-baja latencia: -- Personalización de anuncios en los presupuestos de latencia de búsqueda -- Enrutamiento de modelos y orquestación de agentes -- Interfaces conversacionales y traducción en tiempo real -- Robótica e IA física en el borde -- Aplicaciones potenciales en AI-RAN e infraestructura de telecomunicaciones - Memoria como un espectro de diseño: solo SRAM, SRAM más DDR, SRAM más HBM - El enfoque creciente de Nvidia hacia el hardware de inferencia en lugar de una solución única para todos