由于液体的单位体积热容量约为空气的1000倍,所以液冷方式冷却(散热)能力远高于常规空气冷却方式,是解决超高热流密度散热的有效途径。1964年,为了更好地应对大型主机过热宕机的问题,IBM公司研发出世界首款冷冻水冷却计算机System360,开创了液冷计算机先河[1]。近期,在国家及各地能效管理政策的推动下,液冷技术再度受到了数据中心行业广泛的关注,并发展出系列液冷数据中心工程技术。
广义的液冷是指所有和液冷相关的技术集合体的统称。数据中心业界比较熟悉的机柜背板加装冷水盘管等方式,被视为液冷,即为广义液冷概念下的技术和应用。中国电子学会(CIE)曾在制定液冷数据中心设计系列规范过程中,对液冷的概念进行了梳理,组织了行业讨论,其所定义的液冷,仅指直接由液体带走电子芯片所产生热量的方式,因此狭义的液冷仅指服务器里液冷的过程。
从狭义液冷概念的角度对液冷分类,可以先按照冷却液直接接触电子芯片,或是通过高导热率固体导热材料间接接触电子芯片,分为两大类,再按接触形式、冷却液类别、冷却液是否相变进行梯划分。一般认为液冷形式可以概括为八种(见表1)。
与既有数据中心常用的风冷空调一样,液冷的作用也是带走服务器等IT设备以及其他设备设施(如UPS电池)所产生的热量,使数据中心保持一个相对稳定、温湿度适宜的环境。
首先,散热需求是液冷技术发展的核心驱动力。在数据处理能力需求的快速增长下,电子芯片的集成度未来大概率的发展趋势仍然会以倍速的方式增长。由此带来功率密度和热流密度的不断增加。数据传输速度提高及使用便利性要求,将带来设备集成度的不断提高,综合影响下,服务器等信息设备会有更高的散热需求,相应地对运行环境要求日渐提高。为此,风冷形式需要配备更高转速及更大直径的风扇、更大体积的散热通道,由此带来巨大的风噪声、对环境的热影响,以及建设成本和运行成本的相应上升,液冷将具有更佳的性价比。
其次,能效管理政策推动液冷技术应用。数据中心行业关注液冷另一个重要原因是出于对国家及各地能效管理政策的考虑。国家和地方对于数据中心电能利用效率(PUE)的要求越来越高,使液冷进入数据中心行业的视野。最新施行的国家标准《数据中心能效限定值及能效等级》(GB 40879-2021)[2]要求电能比节能值需小于1.3,在全国大部分地区仅依靠风冷难以实现,需要液冷技术予以平衡。
第三,余热回收的便利性或许成为数据中心应用液冷的推动力。采用液冷解决方案建设的液冷数据中心具有余热品位相对较高、回收相对便利的特点。在液冷数据中心建设余热回收工程是有效实现能源综合利用、提高能源利用效率的重要途径。目前已经有学者提出将大体量数据中心建成城市或工业园区热源的设想。
通过液冷方式将电子芯片运行时产生的热量带走,仅仅是数据中心冷却过程的开始。电子芯片持续发热,为了达成冷却电子芯片的目的,围绕不同的液冷方式,又发展出使液冷过程持续地、稳定地、可靠地运行下去的液冷数据中心工程技术。
液冷理念及实践与风冷有所不同。具体而言就是散热和冷却概念存在细微差别:从高于室温开始还是从低于室温开始。为了更好地梳理液冷数据中心工程技术工作体系,总体上是将电子芯片视为源头,以将电子芯片产生的热量传导到数据中心以外,从而实现信息设备稳定运行为目标。由此,将数据中心的液冷数据中心工程技术分为一次冷却过程和二次冷却过程。这一理念与传统数据中心风冷一次侧、二次侧概念有所不同。
液冷数据中心工程技术一次冷却过程,是对电子信息设备高热流密度元件进行冷却,将其发热量导出至机柜外的过程,也可称其为一次冷却(散热)、初冷却、内冷却、内循环冷却过程。一次冷却过程是严格意义上的液冷过程,为实现该过程,工程上一般由芯片端液冷设备或部件、冷量分配单元(CDU)、冷媒分配器、管路等构成环路,也称为一次冷却环路。冷量分配单元(CDU)内含泵和热交换器,为一次冷却过程的冷却液提供循环动力,具体循环过程是冷量分配单元(CDU)通过管路向芯片端液冷设备或部件输送一定温度和流量的冷却液。通过直接接触电子芯片或通过金属等具有高导热率材料间接接触电子芯片的方式,冷却液与芯片进行热交换,利用液体相比气体更高的比热容,由冷却液快速带走电子芯片产生热量,实现对芯片冷却。受热后的高温冷却液或冷却液蒸汽,通过管路流回冷量分配单元(CDU),与二次冷媒进行换热。冷却后的低温冷却液被冷量分配单元(CDU)驱动,流回芯片端液冷设备或部件,完成一个完整的循环。一次冷却过程常用的冷却液有乙二醇溶液、丙二醇溶液、去离子水等水基冷却工质,也有采用以氟化物作为冷却工质的方案,但目前不同液冷解决方案对冷却工质的物性要求差异较大。
冷量分配单元(CDU)是被普遍应用的设备,一种典型的冷量分配单元(CDU)架构形式如图1所示。除了为一次冷却过程的冷却液提供循环动力和热交换外,该设备还肩负着制冷量(而不仅是冷却液流量)分配的作用,所以其一般还应具备如下功能:
1)具备温度和流量控制功能,通过温度、流量传感器,实现对一次冷却过程中冷却液温度和流量的动态监控。并根据内建模型动态调节冷却液的温度、冷却液的流量或供液压力,为一次冷却过程提供足够的冷却能力,同时避免一次冷却环路的凝露。
液冷数据中心工程技术二次冷却过程,是将一次冷却过程导出的热量导出室外的过程,也可称其为再冷却、外冷却、外循环冷却、再冷却、散热。二次冷却过程的冷媒可以是空气,也可以是冷却水、水基溶液(如:乙二醇水溶液、丙三醇水溶液等)、制冷剂等液体,可统称为二次冷媒。二次冷却过程的冷媒是空气时,二次冷却过程可以视同为常规的数据中心机房内冷却过程。二次冷却过程的冷媒是二次冷媒时,二次冷媒循环的过程也被称为二次冷却环路。
一次冷却环路与二次冷却环路之间通过冷量分配单元(CDU)进行热交换。二次冷媒在冷量分配单元(CDU)内与冷却液进行热交换后,高温的二次冷媒在循环泵驱动下进入冷源或热回收设备等冷却装置,将携带的热量传递到环境中或进行回收利用,冷却后的二次冷媒重新流回热交换器内,完成一个完整的循环。冷源可以是冷却塔、干式冷却器、制冷机组等。由于一次冷却过程对于二次冷媒进入换热器的入口温度要求可以提高到30℃及以上,冷源可以完全依托自然冷源运行,这也是液冷工程技术可以实现较为理想的电能利用效率(PUE)的原理所在。一个典型的液冷工程技术示意图如图2所示。
也有的液冷工程技术采用一次冷却过程设计,即直接由冷却液携带热量并传递到环境中去。但一般情况下一次冷却过程对冷却液纯度等物理指标要求较高,所使用的冷却液成本较高,如管路过长,整体经济性会受到较大影响。所以一次冷却过程设计时最好采用紧凑型方案。
首先,液冷技术的推广驱动力将仍然以信息设备的冷却(散热)需求为主。但这是建立在对电子芯片未来发展趋势预测,以及液冷技术的性价比逐步建立起对风冷技术的优势基础上。但未来仍然存在液冷成本居高不下,倒推芯片设计走上另外发展道路以降低散热冷却需求的可能性。
其次,液冷数据中心的建设及使用形式与常规风冷数据中心有较大的区别。液冷数据中心的特点是信息设备与基础设施高度耦合,从技术原理及可靠性保障上来讲,基本不具备达到常规风冷数据中心一样解耦水平的可能性,所以各技术解决方案、各设备厂商之间均基本相互独立。数据中心业主大概率会被某一技术解决方案提供厂家深度绑定。液冷技术在数据中心的应用可以说是在颠覆原有常规风冷数据中心的商业模式、建设模式、产业模式基础上发展。传统的机柜租赁业务基本无法应用于液冷数据中心。这对于液冷技术的进一步推广形成了巨大的阻碍。
第三,液冷数据中心的可靠性仍有待验证,虽然目前液冷数据中心解决方案提供方提出了增强可靠性检验测试、增加冷却液泄漏检测报警装置等解决方式,但对于机柜内液冷环路发生泄漏导致信息设备损坏的担忧仍是业界广泛关注的话题。
以上不确定性的解决又深度依赖应用的规模。要解决这看似无解的难题,一家独大、上下游通吃,已经被无数次证明违背经济发展规律。历史无数次证明,谁能够最先建立起分工与合作的产业链和生态圈,谁就更容易在竞争中胜出。在没有找到可以解耦信息设备与基础设施的技术路径之前,标准化不会是解耦问题的灵丹妙药,也不会是限制和打击竞争对手的有效手段。但是通过标准化作为工具,不断在求同存异基础上推进解耦,有效分享经验,推动制造、服务各环节的分离,从而实现精细化与专业化,进而降低总体应用成本,在应用的检验中不断改进、提高,逐步形成液冷规模不断扩大的正循环,或许是液冷技术发展的必由之路。
各个液冷形式根据服务器的适配、冷却液的类别、液冷的工作温度等等因素,液冷数据中心工程技术也相对有所不同。目前各技术路线下的工程技术均在发展、定型的过程之中,目前还没有一个业界公认的完美的技术路线,也没有业界公认的各技术路线具体适用的细分领域。如何寻求最终的确定性,将有赖于液冷数据中心工程技术的经济性、可靠性、可维修性等,在不断进行应用实践中寻找更优解。