AI大模型成为风口,全球算力供不应求。
据广发证券测算,国内AI大模型在训练与推理阶段或产生相当于1.1万台至3.8万台高端AI服务器的算力需求。以GPU产品售价10万元、AI加速卡价值量占服务器整机约70%计算,则对应126亿元至434亿元增量AI服务器市场规模。
在订单需求激增的情况下,如何部署节能技术并兼顾算效、能耗、成本,成为考验数据中心建设与运营者的关键。在服务器及IT系统解决方案提供商宁畅主办的媒体沟通会上,宁畅公司总裁秦晓宁和业内专家共同探讨了此事。
中国建筑标准设计研究院数据中心工程部主任吴晓晖表示,数据中心降低能耗和成本的的关键,除了合理选址之外,还可以提高能效和优化用能。
吴晓晖以一个PUE是2的数据中心案例具体讲了能耗构成:最大的能耗是IT设备,占50%,另外的25%+10%是数据中心的制冷系统,10%+3%是供能系统,包括UPS、变压器等。从能耗构成来看,制冷系统是压缩潜力最大的。
据了解,数据中心最早的制冷方式是空调方案,历经房间空调、背板空调、行级空调几个阶段,制冷模式从房间大面积吹到把空调做到机柜中间,再到现在把空调做到芯片上。因为芯片是最大的制热源,制冷手段越来越接近热源,制冷效率也越来越高。
但不管是用风热空调压缩机还是用机组空调,都是用电制冷,需要耗费大量能源。随着数据中心的需求激增,更加节能的室外自然冷却技术被更大范围的应用,其中两个代表性的技术是液冷和蒸发冷却技术,这让数据中心迎来降低能耗的新机遇,但真正让液冷等技术落地并不容易。
宁畅总裁秦晓宁表示,当前80-90%的数据中心依然采用风冷散热,尽管数据中心节能政策频出,液冷投入成本下降,但液冷升级中仍存在着多重困难。主要包括技术难题包含三个方面:
一是技术难,风转液冷首先要考验包括复杂部件液冷适配、漏液可靠性等在内的综合技术。
二是建设久,液冷升级涉及楼体、空间改造等多个环节,周期长,产业链协同性较弱。
三是成本高,用户倾向于关注初期建设成本,往往忽略了液冷释放的性能带来的业务效益与节能效果。
秦晓宁表示,大模型火了之后,5月GPU服务器用量增长38%,大模型带来GPU的功耗是400-700,一个通用机柜功耗需要达到8kW~10kW。如果一个通用计算机柜功耗已经达到了10kW,机房就必须改造。
吴晓晖表示,无论是从节能方面来看,还是服务器机柜功率密度越来越高的趋势看,数据中心适合于液冷置换。
目前国内数据中心冷却液技术处在初期发展阶段,但因为数据中心需求快速增长,已到了爆发的前夜。
(关键字:制冷)