Епізод 1: Nvidia «Придбає» Groq Від @vikramskr і @theaustinlyons Основні висновки: - GPU не мертві. HBM не мертвий. - LPU розв'язують іншу проблему: детерміновану, наднизьку затримку для малих моделей. - Великі фронтирні моделі все ще потребують систем на базі HBM. - Крок Nvidia розширює площу поверхні портфоліо інференцій, а не замінює GPU. - Майбутнє інфраструктури ШІ — це оптимізація для конкретних робочих навантажень і розгортання на основі TCO. Ключові теми: - Що саме Nvidia купила у Groq і чому це не традиційне придбання - Чому ця угода викликала твердження, що GPU та HBM застарілі - Архітектурні компроміси між GPU, TPU, XPU та LPU - SRAM проти HBM. Швидкість, потужність, вартість і реалії ланцюга постачання - Основи LPU Groq: VLIW, виконання за планом компілятора, детермінізм, наднизька затримка - Чому LPU мають труднощі з великими моделями і де вони досягають успіху - Практичні сценарії використання виведення з наднизькою затримкою: -- Персоналізація рекламних копій у бюджетах затримки пошуку -- Маршрутизація моделі та оркестрація агентів -- Розмовні інтерфейси та переклад у реальному часі -- Робототехніка та фізичний ШІ на межі -- Потенційні застосування в AI-RAN та телекомунікаційній інфраструктурі - Пам'ять як спектр дизайну: лише SRAM, SRAM плюс DDR, SRAM плюс HBM - Зростаючий портфельний підхід Nvidia до апаратного забезпечення виведення замість універсального підходу