A solução térmica de diamante (Diamond Thermal Solution) tem como objetivo principal lidar com a pressão de resfriamento do sistema e do data center causada pelo rápido aumento do TDP das GPUs NVIDIA AI: 1. Vantagens da resistência térmica do material de diamante O caminho térmico tradicional "capa de cobre + TIM + placa de resfriamento" já se torna bastante apertado em torno de 700W, com a resistência térmica principalmente concentrada na interface de algumas centenas de micrômetros entre o chip e a placa de resfriamento. A condutividade térmica do cobre é de cerca de 400 W/m·K, enquanto o diamante CVD policristalino de alta qualidade pode alcançar 1000–1500 W/m·K, e o diamante monocristalino pode se aproximar de 2000 W/m·K, o que equivale a pelo menos 3–5 vezes a do cobre. Ao introduzir o diamante no nível do chip (substituindo o material TIM atual), com a mesma espessura e área, a resistência térmica vertical pode ser reduzida em mais de 50%, permitindo que GPUs de 1–2kW tenham a temperatura de interface reduzida em 10–20°C, ou, mantendo o limite de temperatura original, suportem algumas centenas de watts a mais. Isso permite que os modelos B200/B300 avancem para 1.2–1.4kW e Rubin/Ultra para 2.3–3.5kW, enquanto o mesmo hardware de resfriamento líquido ou resfriamento por imersão pode suportar várias gerações a mais, além de deixar mais espaço de design térmico para mais GPUs em uma única máquina e em racks. 2. Aumento significativo na confiabilidade e vida útil do encapsulamento Quando o consumo de energia atinge 2.000W ou até mais de 3.000W, o gradiente de temperatura e o estresse térmico suportados pelo encapsulamento, pela placa de suporte e pela placa-mãe aumentam exponencialmente, podendo causar desde deformações no encapsulamento e bolhas no TIM até fadiga nas soldas e rachaduras no RDL/bolhas, afetando a confiabilidade a longo prazo. O dissipador de calor de diamante não só conduz bem verticalmente, mas também tem alta condutividade térmica na superfície, podendo rapidamente espalhar hotspots em distâncias de alguns milímetros, dissipando picos de calor de 300–500W que estavam concentrados em áreas locais, reduzindo significativamente a diferença de temperatura entre diferentes blocos dentro do chip. Isso ajuda a "aliviar a pressão" no encapsulamento e na placa de circuito: a incompatibilidade de expansão térmica entre o silício, os materiais de encapsulamento e a placa de circuito é suavizada, prolongando os ciclos de deformação do encapsulamento e fadiga das soldas. Para GPUs de alto consumo como Rubin / Rubin Ultra / Feynman, o treinamento e a inferência de LLM por longos períodos podem operar mais próximos da frequência nominal de forma estável, reduzindo o desperdício de poder computacional causado por redução de frequência devido ao superaquecimento ou reinicializações anormais, além de aumentar o MTBF e a vida útil geral. 3. Redução de custos e flexibilidade de expansão do data center Quando o TDP de uma única GPU é mais alto, a potência total do rack rapidamente se aproxima ou ultrapassa 120kW, exigindo uma grande reformulação das infraestruturas de distribuição elétrica e resfriamento do data center. Se a capacidade de condução térmica do chip não for aumentada, será necessário empilhar continuamente CDU, torres de resfriamento e estruturas de distribuição elétrica mais caras, e muitas vezes forçar a temperatura da água de resfriamento a ser muito baixa e o fluxo a ser maximizado para controlar a temperatura. Com a introdução da solução térmica de diamante, a temperatura de uma única GPU é mais baixa sob a mesma temperatura e fluxo de água, reduzindo a probabilidade de redução de frequência; assim, a "potência computacional estável por rack" que cada rack pode fornecer realmente aumenta. Ao mesmo tempo, devido à redução da resistência térmica, também há a possibilidade de permitir uma temperatura de água um pouco mais alta ou um fluxo mais baixo, reduzindo o consumo de energia das bombas e chillers. Mais importante ainda, isso abre a flexibilidade de design térmico para GPUs de 3.5kW a 5kW como Rubin Ultra e Feynman, permitindo que fabricantes de sistemas e provedores de nuvem considerem a solução térmica de diamante como uma "opção de atualização em nível de material" ao planejar a próxima geração de clusters de IA, transformando o resfriamento de uma correção posterior em uma parte do design estrutural inicial, em vez de esperar que o superaquecimento ocorra para pensar em soluções.