La solution thermique en diamant (Diamond Thermal Solution) a pour objectif principal de répondre à la pression thermique des systèmes et des salles de serveurs due à l'augmentation rapide du TDP des GPU NVIDIA AI : 1. Avantages de la résistance thermique du matériau diamant Le chemin thermique traditionnel « couvercle en cuivre + TIM + plaque froide » devient déjà assez tendu autour de 700W, la résistance thermique étant principalement bloquée dans l'interface de quelques centaines de microns entre la puce et la plaque froide. La conductivité thermique du cuivre est d'environ 400 W/m·K, tandis que le diamant CVD polycristallin de haute qualité peut atteindre 1000–1500 W/m·K, et le diamant monocristallin peut même approcher 2000 W/m·K, soit au moins 3 à 5 fois celle du cuivre. En intégrant le diamant au niveau de la puce (remplaçant le matériau TIM actuel), on peut espérer une réduction de la résistance thermique verticale de plus de 50 % pour une épaisseur et une surface identiques, ce qui pourrait réduire la température de contact de 10 à 20°C pour des GPU de 1 à 2 kW, ou permettre d'absorber quelques centaines de watts supplémentaires tout en maintenant la température maximale d'origine. Cela permet aux B200/B300 de progresser vers 1,2–1,4 kW et aux Rubin/Ultra vers 2,3–3,5 kW, tout en permettant à la même configuration de refroidissement liquide ou de refroidissement par immersion de durer plusieurs générations supplémentaires, tout en laissant plus d'espace pour la conception thermique pour ajouter plus de GPU dans une machine ou un rack. 2. Amélioration significative de la fiabilité et de la durée de vie de l'emballage Lorsque la consommation d'énergie atteint 2000W voire 3000W ou plus, le gradient de température et le stress thermique supportés par l'emballage, le substrat et la carte mère sont multipliés, ce qui peut entraîner des déformations de l'emballage et des bulles dans le TIM, et dans les cas les plus graves, provoquer la fatigue des points de soudure, des fissures dans le RDL/les bump, affectant la fiabilité à long terme. Le dissipateur thermique en diamant ne se contente pas de bien conduire la chaleur verticalement, il a également une conductivité thermique très élevée dans le plan, permettant de répartir rapidement les points chauds sur quelques millimètres, dispersant ainsi les pics de chaleur de 300–500W qui étaient initialement concentrés dans des zones locales, réduisant considérablement la différence de température entre les différentes zones de la puce. Cela équivaut à « décharger » l'emballage et le substrat : la dilatation thermique entre le silicium, le matériau d'emballage et le substrat est atténuée, prolongeant ainsi le cycle de déformation de l'emballage et de fatigue des points de soudure. Pour des GPU à haute consommation comme le Rubin / Rubin Ultra / Feynman, les services d'entraînement et d'inférence LLM à long terme peuvent fonctionner plus près de la fréquence nominale de manière stable, réduisant le gaspillage de puissance de calcul causé par la réduction de fréquence due à la surchauffe ou les redémarrages anormaux, tout en augmentant le MTBF global et la durée de vie. 3. Coûts de la salle de serveurs et flexibilité d'expansion Lorsque le TDP d'un seul GPU augmente, la puissance totale d'un rack approche rapidement ou dépasse 120kW, 130kW, nécessitant une refonte majeure des infrastructures électriques et de refroidissement de la salle de serveurs. Si la capacité de conduction thermique du côté de la puce n'est pas améliorée, il n'y a d'autre choix que d'accumuler des CDU, des tours de refroidissement et des infrastructures électriques de plus en plus coûteuses, et souvent, pour maintenir la température, il faut forcer la température de l'eau de refroidissement à être très basse et le débit à être à son maximum. Avec l'introduction de la solution thermique en diamant, un seul GPU à la même température et débit d'eau aura une température plus basse et une probabilité de réduction de fréquence diminuée, ce qui augmente en réalité la « puissance de calcul stable par rack » fournie par chaque rack ; en même temps, grâce à la réduction de la résistance thermique, il est également possible d'autoriser une température d'eau légèrement plus élevée ou un débit plus faible, réduisant ainsi la consommation d'énergie des pompes et des refroidisseurs. Plus important encore, cela ouvre la flexibilité de conception thermique pour les futurs GPU de 3,5kW à 5kW comme le Rubin Ultra et le Feynman, permettant aux fabricants de systèmes et aux fournisseurs de cloud de considérer le refroidissement en diamant comme une « option de mise à niveau au niveau des matériaux » lors de la planification de la prochaine génération de clusters AI, transformant le refroidissement d'une solution de secours en une partie intégrante de la conception architecturale dès le départ, plutôt que d'attendre que la chaleur devienne un problème pour chercher des solutions.