中信建投证券发布研究报告称,2025年是英伟达AI芯片液冷渗透大幅提升的一年,同时随着单芯片功耗的提升,后续液冷市场规模将明显增长。而随着ASIC机柜方案逐步采用液冷以及国内厂商超节点方案的推出,同时伴随液冷产业链成熟度的提升,液冷在ASIC市场以及国内市场的渗透预计也将快速提升,进一步打开市场空间。建议重视液冷板块。
01 液冷散热系列报告二:金刚石材料——高效散热破局之选
随着半导体产业更先进制程迈进,芯片尺寸缩小而功率激增,“热点” 问题突出,芯片表面温度过高会导致安全性和可靠性下降,催生对高效散热方案的需求。金刚石是理想散热材料,热导率可达2000W/m・K,是铜、银的 4-5 倍,也是硅、碳化硅等半导体材料的数倍至数十倍,且兼具高带隙、极高电流承载能力、优异机械强度与抗辐射性,在高功率密度、高温高压等严苛场景中优势显著。其应用形式包括金刚石衬底、热沉片及带微通道的金刚石结构,可适配半导体器件、服务器 GPU 等核心散热需求。在制备上,化学气相沉积法(CVD)为主流,可生产单晶、多晶、纳米金刚石,国内外企业已开发相关产品。伴随算力需求提升与第三代半导体发展,未来金刚石在高端散热市场空间广阔。
芯片“热点”问题亟待解决。随着半导体产业遵循着摩尔定律逐步向2纳米、1纳米甚至是埃米级别迈进,尺寸不断缩小,功率不断增大,带来了前所未有的热管理挑战。芯片在运行过程中会产生大量热量,若散热不及时芯片温度将急剧上升,进而影响其性能和可靠性。芯片内部热量无法有效散发时,局部区域会形成“热点”,导致性能下降、硬件损坏及成本激增。
金刚石是良好的散热材料。传统金属散热材料(如铜、铝)虽然导热性能较好,但其热膨胀系数与高导热、轻量化要求难以兼顾。金刚石作为一种散热材料,它的热导率可以达到2000W/m·K,是硅(Si)、碳化硅(SiC)和砷化镓(GaAs)热导率的13倍、4倍和43倍,比铜和银的热导率高出4-5倍。在热导率要求比较高时,金刚石是唯一可选的热沉材料。金刚石作为散热材料主要有三种应用方式:金刚石衬底、热沉片以及在金刚石结构中引入微通道。
金刚石作为半导体衬底材料优势显著。1)高热导率:金刚石在目前已知材料中热导率最高,能在高功率密度设备中有效散热。2)高带隙:金刚石的带隙约为5.5eV,能够在高温、高电压环境中稳定工作,特别适用于高温/高功率电子设备。3)极高的电流承载能力:金刚石的电流承载能力远超传统半导体材料,能适应高电流应用。4)优异的机械强度:金刚石的硬度和抗磨损性使其在苛刻的工作条件下能够保持稳定性能,增加器件的可靠性和寿命。5)抗辐射性:金刚石的抗辐射性使其适合用于空间、核能等高辐射环境中。
02 液冷散热系列报告一:热界面材料——搭建芯片等电子元器件的高速散热通道
随着高密度芯片和封装技术发展,电子元器件热功耗持续攀升,英伟达GPU热功耗从H100的700W升至B200的1200W,手机芯片热流密度突破15W/cm²,散热需求急剧提升。我国热界面材料(TIM)市场规模从2018年的9.75亿元增长至2023年的18.75亿元,年复合增长率达13.97%,增速显著。芯片散热中,TIM1与TIM2构成“双导热引擎”,TIM1直接接触芯片,需低热阻、高导热性,以石墨烯、氮化硼等为填料,导热系数较高;TIM2适配均热板与散热器,兼顾散热效率与成本,导热系数通常为5-10W/m・K,二者通过填充空隙降低接触热阻,保障芯片稳定运行。此外,TIM在消费电子和新能源汽车领域应用广泛,分别占比46.7%和38.5%,随着下游需求升级,行业前景广阔。
电子元器件散热需求提升,TIM为散热核心部件
随着高密度芯片和封装技术的不断发展,电子元器件的散热问题日益突出,热界面材料(TIM)作为核心散热产品,市场迎来快速增长。TIM广泛应用于计算机、消费类设备、电信基础设施、汽车等多个领域,主要用于填补散热器件与发热器件之间的微小空隙,降低接触热阻,提升散热效率。
TIM应用场景广泛,芯片散热需求引领产品迭代
在芯片散热中,TIM1和TIM2发挥着“双导热引擎”作用。英伟达GPU热功耗从H100的700W升至B200的1200W,手机芯片热流密度突破15W/cm²,散热需求急剧提升。在消费电子领域,随着智能手机、平板电脑等设备性能和功耗的增加,散热方案不断升级。从传统的导热界面材料加石墨膜,发展到热管、均温板等组合方案,高导热材料的渗透率逐步提升。同时,VR/AR设备、固态硬盘、智能音箱、无线充电器等电子产品也对散热提出了更高的要求,热界面材料针对细分场景提供精准散热方案。
新材料助力TIM散热能力突破,国产化率有望不断提升
未来,随着新材料的不断研发,如具有优越性能的金刚石材料和高导热的石墨烯等纳米材料,热界面材料的散热能力将得到进一步突破。目前,全球热界面材料市场仍以海外企业为主导,但国内企业在上游材料国产化率提升和研发壁垒突破的推动下,市场份额有望逐步提高。同时,随着消费电子、汽车电子等下游市场的持续扩大,热界面材料行业将迎来更广阔的发展空间。
03 25Q2北美CSP资本开支增长64%,持续推荐液冷板块
2025Q2,北美四大互联网厂商资本开支总计958亿美元,同比增长64%,持续保持高增态势,并对后续季度以及全年展望乐观,其中谷歌和meta上调了今年指引。亚马逊2025Q2 capex为322亿美元,同比增长83%,公司表示二季度资本开支可以代表下半年单季度资本开支水平;微软2025Q2(2025财年第四财季) capex为242亿美元,同比增长27%,预计下季度(2026财年第一财季)资本开支超过300亿美元(对应同比增长超过50%);谷歌2025Q2 capex为224亿美元,同比增长70%,并将全年资本开支由750亿美元上调至850亿美元,还表示2026年的投资将会继续增长;Meta 2025Q2 capex为170亿美元,同比增长101%,并将全年资本开支指引由640亿-720亿美元上调至660亿美元-720亿美元,表示2026年还会显著加大AI投资。
2025年是英伟达AI芯片液冷渗透大幅提升的一年,同时随着单芯片功耗的提升,后续液冷市场规模将明显增长。而随着ASIC机柜方案逐步采用液冷以及国内厂商超节点方案的推出,同时伴随液冷产业链成熟度的提升,液冷在ASIC市场以及国内市场的渗透预计也将快速提升,进一步打开市场空间。建议重视液冷板块。
中信建投证券认为,AI带动的算力行业需求强劲,持续推荐算力产业链,包括北美链和国内链,建议持续重视。
04 AI新纪元:砥砺开疆・智火燎原
AIDC海内外散热系统发展趋势及展望
高算力需求推动算力中心单机功率密度提升。风冷系统通过让冷源更靠近热源,或者密封冷通道/热通道的方案,来适应更高的热密度散热需求。随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。算力中心绿色低碳发展持续深化的需要。PUE(Power Usage Effectiveness,数据中心总能耗/IT设备实际能耗)是算力中心最常见的评价性能指标,也是行业评价算力中心绿色性能的主要衡量指标,PUE值越接近于1,代表算力中心的绿色化程度越高。液冷技术主要分为冷板式、浸没式和喷淋式液冷技术等技术类型,其中冷板式液冷技术作为成熟度最高、应用最广泛的液冷散热方案。
单机柜功率密度逐渐超过30kW。Colocation America数据显示,2023年全球数据中心单机柜平均功率达到20.5kW,单机柜功率超30kW占比不断提升。一般认为30kW是风冷散热的上限,随着30kW+功率机柜的快速增加,冷却方式应逐渐从风冷过渡到液冷。
液冷服务器市场规模不断提升,冷板式液冷仍占主力。从市场规模来看,观研天下数据显示,2024年中国液冷服务器市场规模将达201亿元,同比增长84.4%,预计2025年市场规模增速为46.3%,达294亿元。从市场结构来看,2024年冷板式液冷市场占比约65%;浸没式液冷市场占比约34%,喷淋式液冷市场占比约1%。
风冷散热:该方案实现方式为将风冷组件(包含热界面材料(TIM)、集成散热器(IHS)、3DVC和风扇)安置在计算平台的前端。DGX H100风冷方案(含8片H100 GPU):计算平台最前端装有3行*4列风扇用于8卡H100的散热;DGX B200风冷方案(含8片B200 GPU):计算平台最前端装有4行*5列风扇用于8卡B200的散热。
风冷散热所需要的元件:热界面材料TIM(直接覆盖在GPU之上)、集成散热器IHS(与TIM相连)、多维两相均温元件3DVC(由热管和散热片组成,安置在IHS之上)、风扇(安置在服务器最前面或者最后)。3DVC的得名来自于1维的热管、2维的散热片、3维的热管与散热片腔体互通;VC(蒸汽室)来自于液体蒸发冷凝的过程。
风冷散热的原理:芯片的热量通过TIM传导至IHS之上,热量进入3DVC中将3DVC中的液体蒸发为蒸汽,蒸汽通过热管向上传导至上方多层散热片中。由服务器前端和后端的风扇和数据中心的空调将腔体内的蒸汽冷凝为液体,过程循环往复。因此,风冷散热有两部分组成:每个芯片上方的多维两相均温元件与服务整个服务器散热的风扇和数据中心的空调。
热设计功率越高,风冷散热组件所需高度越高。风冷设计的HGX H100与HGX B200基本由三部分组成:电源托盘,母板(CPU)托盘,与GPU计算托盘。GPU计算托盘高度则占到服务器高度的三分之二。芯片本身的高度近乎为0,主要高度来自于风冷散热元件:芯片热功率越高,充分散热需要的散热片高度越高。从HGX H100到HGX B200,风冷散热元件的高度增加了50%。大量的机柜内部空间被用于风冷散热而不是实际有效的集群计算。
液冷能有效解决风冷散热的痛点问题。大幅增加了机柜散热功率。水的热容量为空气的4000倍,热导率是空气的25倍。在相同温度变化中,水能存储更多的热量且热量的传递速度远超空气。GB200的水冷计算托盘设计利用冷板与冷却液的高效热交换机制,将芯片产生的热量均匀传递至冷板表面。冷却液以高流速经过冷板后能够迅速带走热量并均匀散热。
大幅提高数据中心空间利用率。风冷的HGX H100计算平台高度大概为6U(1U=4.445cm)。而采用风冷设计的HGX B200则需要10U高度的风冷设备达到散热需求。相比较而言,使用DLC的GB200计算托盘的高度仅为1U。同样部署8块GPU芯片,HGX H100高度为6U,HGX B200需要10U,而GB200 NVL72只需要2个计算托盘总计高度为2U。空间利用率大幅提升。
冷板式液冷技术:通过冷板将芯片等发热元器件的热量间接传递给封闭在循环管路中的冷却液体,冷却液带走热量,并将其传递到一次侧回路,通过冷却系统进行冷却,最后将热量排出系统。冷板式液冷系统可以分为一次侧(室外)循环和二次侧循环(室内)两部分。其中,二次侧循环主要通过冷却液温度的升降实现热量转移,而一次侧的热量转移主要是通过水温的升降实现。成本方面,一次侧占到液冷成本的30%左右,二次侧占70%左右。
冷却效果:冷板一般使用在平坦表面时换热效果最佳,例如CPU、GPU和存储器模块等,不适用于电源和IC电容器等其他组件,综合来看,冷板液冷可带走机架中设备产生的70-75%的热量,因此需要采用混合冷却方法。
冷板式液冷二次侧(室内侧)核心部件:①液冷板(Liquid Cooling Plate):液冷板是一种通过液体循环来吸收和转移热量的散热设备,广泛应用于高性能计算和数据中心。它们通常安装在服务器或电子设备上,通过液体流动来冷却设备。②快速断开装置(QD):允许快速方便地连接和断开液体管线,且不会产生漏液。③冷却液分配单元(Coolant Distribution Unit,CDU):负责冷却剂的分配、调节和监控。它们确保每个服务器都能获得适量的冷却液,以维持适宜的运行温度。CDU分为L2A,包括:RPU(泵、水箱)、散热片、风扇。以及L2L,包括:RPU和钎焊板式换热器(BPHE)。④机柜内部管线(Manifold):柜内管线包括Rack Manifold(机架管)和Row Manifold(行管),是液冷系统中用于分配冷却液的管道系统。Rack Manifold负责将冷却液分配到机架中的各个服务器。Row Manifold则负责在机架内部分配冷却液到每行的服务器。
冷板式液冷机柜价值量拆分(以GB200 NVL72机柜为例)。GB200 NVL72机柜内部液冷系统的整体价值约为8.4万美元,占机柜成本的2.8%左右(假设机柜液冷总成本300万美元)。分零部件来看,GB200 NVL72机柜包含126颗芯片,其中,Compute Tray包含芯片108颗(72*GPU+36*CPU),对应冷板价值量约3.2万美元;Switch Tray芯片对应冷板价值量约3600美元,合计占比达43%。冷却分配单元(CDU)单价3万美元,占35.8%。快接头价值量占比约10.5%,Manifold约占4.8%。总体来看,液冷板与CDU两项合计占整体液冷成本的78.8%,为液冷方案的核心零部件。
浸没式液冷是一种通过将发热的电子元器件(如 CPU、GPU、内存及硬盘等)全部或部分直接浸没于装有非导电惰性流体介质的机箱中的液冷散热技术。它包含两个循环:一次侧循环利用室外冷却设备(如冷却塔或冷水机组)与热交换单元(如CDU等)进行热交换,排出冷却液热量;二次侧循环中,CDU与液冷箱内的IT设备热交换,传递热量给冷却液。
根据冷却液在循环散热过程中是否发生相变,分为单相浸没式液冷和双相浸没式液冷。①单相浸没式:作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。②两相浸没式:作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。
浸没式液冷由于发热元件与冷却液直接接触,散热效率更高,相对于冷板式和喷淋式液冷,噪音更低,能解决高热密度机柜的散热问题。①单相浸没式液冷中,介电冷却液(沸点较高)保持液体状态,电子部件直接浸没在液体中,热量从电子部件传递到液体中。通常使用循环泵将经过加热的冷却液流到热交换器,在热交换器中冷却并循环回到容器中。②相变浸没式液冷是以相变冷却液(沸点较低)作为传热介质,在工作状态下,当冷却液的温度升高到系统压力所对应的沸点时,冷却液发生相变,从液态变化为气态,通过汽化热吸收热量,实现热量的转移。
综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案,冷板式液冷可以实现从传统风冷模式的平滑过渡,在数据中心领域应用更多。