Odcinek 1: Nvidia "przejęła" Groq Od @vikramskr i @theaustinlyons Najważniejsze wnioski: - GPU nie są martwe. HBM nie jest martwe. - LPU rozwiązują inny problem: deterministyczne, ultra-niskolatencyjne wnioskowanie dla małych modeli. - Duże modele graniczne wciąż wymagają systemów opartych na HBM. - Ruch Nvidii rozszerza powierzchnię swojego portfela wnioskowania, a nie zastępuje GPU. - Przyszłość infrastruktury AI to optymalizacja specyficzna dla obciążenia i wdrożenie oparte na TCO. Kluczowe tematy: - Co tak naprawdę Nvidia kupiła od Groq i dlaczego nie jest to tradycyjne przejęcie - Dlaczego umowa wywołała twierdzenia, że GPU i HBM są przestarzałe - Architektoniczne kompromisy między GPU, TPU, XPU i LPU - SRAM vs HBM. Szybkość, pojemność, koszt i rzeczywistość łańcucha dostaw - Podstawy Groq LPU: VLIW, wykonanie zaplanowane przez kompilator, determinizm, ultra-niska latencja - Dlaczego LPU mają trudności z dużymi modelami i gdzie radzą sobie lepiej - Praktyczne przypadki użycia dla hiper-niskolatencyjnego wnioskowania: -- Personalizacja treści reklamowych w ramach budżetów latencji wyszukiwania -- Routing modeli i orkiestracja agentów -- Interfejsy konwersacyjne i tłumaczenie w czasie rzeczywistym -- Robotyka i fizyczna AI na krawędzi -- Potencjalne zastosowania w AI-RAN i infrastrukturze telekomunikacyjnej - Pamięć jako spektrum projektowe: tylko SRAM, SRAM plus DDR, SRAM plus HBM - Rosnące podejście Nvidii do portfela sprzętu wnioskowania, a nie rozwiązanie uniwersalne