Episódio 1: Nvidia "Adquire" Groq De @vikramskr e @theaustinlyons Principais Conclusões: - As GPUs não estão mortas. O HBM não está morto. - Os LPUs resolvem um problema diferente: inferência determinística e de ultra-baixa latência para modelos pequenos. - Modelos de fronteira grandes ainda requerem sistemas baseados em HBM. - O movimento da Nvidia expande a área de superfície do seu portfólio de inferência em vez de substituir as GPUs. - O futuro da infraestrutura de IA é a otimização específica para carga de trabalho e a implementação orientada pelo TCO. Tópicos Chave: - O que a Nvidia realmente comprou da Groq e por que não é uma aquisição tradicional - Por que o acordo desencadeou alegações de que as GPUs e o HBM estão obsoletos - Compromissos arquitetônicos entre GPUs, TPUs, XPUs e LPUs - SRAM vs HBM. Velocidade, capacidade, custo e realidades da cadeia de suprimentos - Fundamentos do LPU da Groq: VLIW, execução programada por compilador, determinismo, ultra-baixa latência - Por que os LPUs têm dificuldades com modelos grandes e onde eles se destacam em vez disso - Casos de uso práticos para inferência de hiper-baixa latência: -- Personalização de anúncios em orçamentos de latência de busca -- Roteamento de modelos e orquestração de agentes -- Interfaces conversacionais e tradução em tempo real -- Robótica e IA física na borda -- Aplicações potenciais em AI-RAN e infraestrutura de telecomunicações - Memória como um espectro de design: apenas SRAM, SRAM mais DDR, SRAM mais HBM - A abordagem crescente da Nvidia ao portfólio de hardware de inferência em vez de uma solução única para todos