Решение по теплопередаче с использованием алмазных чипов (Diamond Thermal Solution) имеет основной целью справиться с растущим тепловым давлением на систему и серверные помещения, вызванным быстрым увеличением TDP AI GPU от NVIDIA: 1. Преимущества алмазных материалов в снижении теплового сопротивления Традиционный тепловой путь «медная крышка + TIM + холодная пластина» становится довольно напряженным уже при 700W, и основное тепловое сопротивление застревает на интерфейсе между чипом и холодной пластиной, который составляет несколько сотен микрон. Теплопроводность меди составляет около 400 W/m·K, в то время как высококачественный поликристаллический CVD алмаз может достигать 1000–1500 W/m·K, а монокристаллический даже приближается к 2000 W/m·K, что в 3–5 раз больше, чем у меди. Внедрение алмаза на уровне чипа (замена текущих материалов TIM) при одинаковой толщине и площади может снизить вертикальное тепловое сопротивление более чем на 50%, что на практике может снизить температуру контакта на 10–20°C для GPU мощностью 1–2kW или позволить потреблять на несколько сотен ватт больше при сохранении прежнего предела температуры. Это позволяет B200/B300 двигаться к 1.2–1.4kW, а Rubin/Ultra к 2.3–3.5kW, при этом одна и та же система жидкостного или погружного охлаждения сможет поддерживать несколько поколений, оставляя больше пространства для теплового проектирования для установки большего количества GPU в одном сервере и шкафу. 2. Существенное повышение надежности упаковки Когда потребление энергии достигает 2000W или даже 3000W и выше, температурные градиенты и тепловые напряжения, которые испытывают упаковка, подложка и материнская плата, увеличиваются в несколько раз, что может привести к деформации упаковки и образованию пузырьков в TIM, а в худшем случае к усталости припоя и трещинам в RDL/выступах, что влияет на долгосрочную надежность. Алмазный теплопроводник не только хорошо проводит тепло вертикально, но и обладает высокой теплопроводностью в плоскости, что позволяет быстро распределять горячие точки на расстоянии всего нескольких миллиметров, уменьшая температурные пики в 300–500W, которые изначально сосредоточены в локальных областях. Это фактически «снимает нагрузку» с упаковки и подложки: несоответствие теплового расширения между кремнием, упаковочными материалами и подложкой смягчается, а деформация упаковки и циклы усталости припоя увеличиваются. Для таких высокомощных GPU, как Rubin / Rubin Ultra / Feynman, длительное обучение и инференс LLM могут работать ближе к номинальной частоте, уменьшая потери вычислительной мощности из-за перегрева и снижения частоты или аномальных повторных запусков, а также увеличивая общий MTBF и срок службы. 3. Снижение затрат на серверные помещения и гибкость расширения Когда TDP одной GPU становится выше, общая мощность шкафа быстро приближается или превышает 120kW, 130kW, и инфраструктура электроснабжения и охлаждения серверного помещения требует значительных изменений. Если не повысить теплопроводность на уровне чипа, придется постоянно наращивать более дорогие CDU, охладительные башни и электрические схемы, и для поддержания температуры часто приходится опускать температуру охлаждающей воды очень низко и увеличивать поток до предела. После внедрения охлаждения с использованием алмазных чипов, температура одной GPU при одинаковой температуре и потоке воды будет ниже, вероятность снижения частоты уменьшится, и фактическая «стабильная вычислительная мощность на стойку» увеличится; одновременно, благодаря снижению теплового сопротивления, также появляется возможность использовать немного более высокую температуру воды или более низкий поток, что снижает потребление энергии насосов и чиллеров. Более того, это заранее открывает гибкость теплового проектирования для будущих GPU уровня 3.5kW–5kW, таких как Rubin Ultra и Feynman, позволяя производителям систем и облачным провайдерам рассматривать охлаждение с использованием алмаза как «вариант повышения на уровне материалов» при планировании следующего поколения AI кластеров, превращая охлаждение из меры по устранению последствий в часть проектирования архитектуры на раннем этапе, а не ждать, пока произойдет тепловой коллапс, чтобы искать решения.