很多人这两年谈液冷,关注点几乎都集中在:
但实际上,在越来越多AI数据中心真正开始大规模部署液冷之后,业内正在慢慢意识到一个过去很少被认真讨论的问题:
“液冷系统里面流动的冷却液,本身到底是不是健康的?”
这个问题,过去在很多传统数据中心里并不突出。 因为以前服务器功耗没那么高,液冷规模也没那么大。
但随着H100、B200、GB200、MI300这一代AI GPU不断推高单柜功耗,液冷系统已经开始从“辅助散热”,变成数据中心的“生命系统”。
而一旦液冷系统内部出现问题,影响的可能不是一台服务器,而是整个集群。
最近,在和业内一位长期做液冷监测方向的工程师交流时,我第一次真正意识到:
原来液冷行业,已经开始有人在研究一种“冷却液健康监测器(Coolant Health Monitor)”。
而且,它监控的还不是传统意义上的:
而是:
这些以前很多人根本不会想到的问题。
更有意思的是,这些新的技术其实有点像:
“液冷系统的在线体检仪”。
很多刚接触液冷的人,第一反应通常是:
“液冷最怕的不就是漏液吗?”
但真正做大型液冷运维的人会告诉你:
漏液反而很多时候是最容易被发现的问题。
真正难处理的,是:
这些问题,往往不是几小时发生的。
而是:
几个月、甚至一年以后,系统开始慢慢“生病”。
最可怕的是:
你一开始根本看不出来。
上图:随着试管内“铜腐蚀抑制剂”的耗尽观察到的铜的腐蚀在实验室逐渐腐蚀的例子
这个其实是整个技术路线里最让我觉得“有意思”的地方。
他们现在第一代产品,重点就是检测:
冷却液中的铜离子浓度。
为什么是铜?
因为很多冷板、热交换器、散热结构内部,本身就使用铜材料。
如果冷却液里开始持续出现铜离子:
通常意味着:
系统内部已经开始发生腐蚀。
也就是说:
系统表面上可能还在正常运行,GPU温度也没问题,但实际上内部材料已经在慢慢被“吃掉”。
而传统液冷系统,很多时候并不知道这件事。
于是你会发现:
很多问题最后查半天,才发现是冷却液体系早就出了问题。
而他们现在做的事情,本质上就是:
尝试把这种“慢性疾病”提前可视化。
这家公司在交流时提到一句让我印象非常深的话:
“做液冷监测,到最后会发现,自己越来越像化学公司。”
因为真实的数据中心冷却液,并不是:
“水 + 管子”这么简单。
里面往往会有:
而这些东西:
也就是说:
未来液冷系统真正复杂的地方,很可能不是机械结构,而是:
“长期化学稳定性”。
这其实和传统汽车冷却系统越来越像。
只不过:
AI数据中心的功耗密度、流量规模、运行时间,要恐怖得多。
交流里还有一个特别有意思的话题。
有人提到:
之前和某大型互联网公司海外数据中心运维团队交流时,对方最头疼的问题之一,居然是:
液冷系统里的细菌。
而且:
即使已经加入大量biocide(杀菌剂),问题依然很严重。
更麻烦的是:
长期使用同一种biocide后,细菌会逐渐形成耐受性。
听到这里时,对方工程师直接说了一句:
“这其实就像人类长期使用抗生素后出现耐药性一样。”
这一点其实很多做IT的人以前根本不会想到。
因为大家默认:
数据中心 = 电子设备。
但液冷时代以后:
数据中心正在越来越像:
甚至开始出现“微生物治理”问题。
这是我听完整个交流后最大的感受之一。
过去的数据中心运维,主要是:
但液冷时代之后,未来很可能会多出来一个新角色:
“冷却液健康运维”。
因为很多问题,不再只是:
而是:
这已经不是传统IT运维逻辑了。
而更像:
半个化学实验室。
因为AI数据中心正在进入一个新阶段:
以前:
现在:
一旦液冷体系出问题:
损失非常巨大。
尤其未来:
越来越普及后:
液冷系统本身的可靠性,会变得和GPU本身一样重要。
而过去很多液冷系统,其实缺少:
“长期在线健康监测能力”。
所以这类产品真正的价值,不一定是:
“发现已经坏掉的系统”。
而是:
在系统真正坏掉之前,提前几个月看到趋势变化。
这才是它最有意思的地方。
整个交流过程中,还有一个很明显的感受:
真正成熟的液冷系统,未来一定不是:
“买个CDU接上就结束”。
而是:
全部结合在一起。
甚至他们的软件系统,已经开始强调:
因为很多液冷问题:
根本不是瞬间发生的。
而是:
“系统慢慢变坏”。
这其实和今天AI服务器的发展方向非常一致:
未来真正重要的,不只是“性能”,而是:
“长期稳定运行能力”。
过去几年,液冷行业最吸引眼球的是:
但未来几年,真正难的问题,可能恰恰是那些:
肉眼看不见的问题。
例如:
而这类“在线冷却液健康监测”技术的出现,其实说明整个行业正在逐渐成熟。
因为只有行业真正开始大规模部署、长期运行之后,大家才会意识到:
原来液冷系统真正复杂的地方,并不只是“把热带走”。
而是:
如何让整个冷却系统,稳定健康地运行很多年。