裸 die 芯片散热请务必使用相变硅脂
背景
自己在京东上买的磐镭YO-1 AMD Strix Halo 小主机在短短半年的时间内经历了2次高温死机问题的售后。而在上个月跑一些自己的研究代码测性能期间,我发现了严重的单核降频问题(5.1GHz Turbo 跑出来只有 4.6GHz),最终定位到问题在于,原厂普通硅脂的pump-out effect(蹦出效应)导致的问题。
经过
- 2025.6.6 购入小主机
- 2025.6.18 经历第一次高负载死机,京东换新
- 2025.10.8 经历第二次高负载死机,京东换新
- 后面几个月持续安稳
- 2026.2 发现即使跑单核也经常出现频率过低问题,观察发现 CPU CCD0 单核满载温度可达 97 摄氏度,遂自己换利民 TFX 硅脂,问题解决,恢复到绑定 CCD0 任何单核都可以满载控制在 60 度以下。
- 2026.2-2026.3 期间长时间 GPU 满载与 CPU 满载,GPU运行本地小模型微调、推理,CPU执行数据处理。
- 2026.3 发现问题重现,并进行详细测试发现,仅有
numactl绑定到 CCD0 的奇数核心或者其 SMT 时,才会出现单核满载温度超过90度的情况,而若是偶数核心,则可以维持满载 70 度(不算很高但是也很离谱)。
查找资料
裸 Die 弯曲
查询资料后我发现,硅脂的 pump-out effect (蹦出效应)是一个裸 Die 散热中很常见也难以忽视的问题。在裸 die 芯片中(例如笔电的 CPU、所有的GPU、Xilinx Vitis UltraScale+ FPGA),由于芯片没有顶盖,芯片受热膨胀的弯曲容易导致硅脂蹦出,参考论文:Lau, J., Fan, X. (2025). Warpage Management in Semiconductor Packaging. In: Hybrid Bonding, Advanced Substrates, Failure Mechanisms, and Thermal Management for Chiplets and Heterogeneous Integration. Springer, Singapore. https://doi.org/10.1007/978-981-96-4166-6_4
另推荐阅读一篇别人的知乎文章:https://zhuanlan.zhihu.com/p/1945974874679023489
相变硅脂
相变硅脂通常是一种室温下是固体,而受热(50摄氏度左右)会液化为液体的硅脂,而温度降低后又会凝固为液体。对于裸 Die 芯片来说,液化的过程可以增加流动性,同时降低厚度,又因为其结构稳定,可以大幅降低受热蹦出的风险。
而目前市场上的相变硅脂,也不乏导热系数达到 8.5W/mK 的主流产品(例如Honeywell PTM7950),也有 13.8W / mK 的高端产品,能很好地满足高端芯片散热需求。许多 GPU 以及笔电自带的硅脂也会采用相变硅脂。我也在 Reddit 上看到了许多网友反馈自己给笔电、 GPU 更换普通 thermal paste 的 2周后出现了散热性能下降到不如用了3年的原厂硅脂的情况。
这让我回想起来,之前买的浪潮 VU37P FPGA 拆开后,硅脂基本是一整片的整体而非粉末状,大概是相变硅脂,然而我却自己换成了信越7921,这下成了自己做了个负升级。
因此,对于裸 die 芯片做散热升级,真的不能忘记使用相变硅脂!
后续
自己更换了相变硅脂,目前使用良好,期待过几个月后依然可以保持良好的性能。
我也给小主机的厂商发了邮件,之前给他们反馈过 AMD AGESA 版本问题得到了回复,希望这次也会。


