风冷GPU服务器和水冷GPU服务器的综合分析

导语
随着互联网、大数据、云计算、高性能计算的快速发展,数据中心面临着严峻的挑战。主要归结于gpu驱动应用程序推动,使得业务和it增长需协调一致。随着数据中心内部温度升高,运营商正争先恐后地寻找可行、更节能的散热解决方案。在此我们将讨论其中最可行和最实用的冷却方法,并对比分析风冷冷却和液体冷却。
1  冷却技术运作原理
风冷冷却
传统的风冷数据中心通过空气处理机上的进气口将外部空气带入。空气被计算机房空调(crac)单元冷却,然后在高架地板带动下进入服务器机架冷过道。冷空气通过并冷却服务器,然后离开热通道,通过充气室排放返回空气处理器。
液体冷却
液体冷却的工作原理是:液体相较于空气是更好的热导体。
服务器垂直安装在水平定向的介质(电非导电)流体冷却液槽中。
冷却液通过与服务器组件的直接接触传递热量。
加热的冷却液从机架顶部流出,并在机架和连接到温水回路的冷却分配单元(cdu)之间循环。另一侧包含冷却塔或干式冷却器作为散热最终形式。
冷却的液体从热交换器返回到机架。
2  复杂性和前期成本
  风冷冷却
看似简单的服务器机架系统实际上有很多活动部件:高架地板,通道遏制策略,冷却器,空气处理器,湿度控制,过滤系统和增压室的某种组合。为了支持上述功能,风冷数据中心还必须运行相对较大的辅助基础设施(特别是备用发电机、ups和电池)。
这些必要的复杂性等同于相对较大资本支出(capex)。
  液体冷却
自 2009 年开创该技术以来,一直在挖掘液体冷却的最大价值(简单性)。
考虑只需三个活动部件:冷却液泵,水泵和冷却塔,干式冷却风扇,并且不需要高架地板,也不需要通过通道封闭浪费空间。液体冷却可以将数据中心的资本支出降低50%甚至更低。
由于机架可以紧密地间隔在一起,液体冷却不需要对气流进行cfd分析,甚至可放置在裸露的混凝土地板上。电气支持系统缩小尺寸。
在假设简单性会影响性能之前,补充一点说明grc iceraq™系统可以轻松冷却100 kw /机架(甚至更高),远远超过最好的风冷操作能力。
3  效率和运营费用
风冷冷却
显而易见空气是比液体更有效的热导体(效率低1200倍) 。不仅使风冷数据中心本质上效率降低,而且会产生连锁反应,对运营费用产生严重影响。
风扇占服务器功耗的20%。为提高空气有效性,需冷却器和空气处理器等消耗能源的制冷组件。这些反过来又会影响电力基础设施规模。
鉴于上述情况,风冷冷却需要数据中心技术中极高的运营费用,同时大约产出1.35至1.69的pue。
液体冷却
用三个移动部件(grc移除风扇以优化服务器浸入式),零制冷组件,大大降低基础设施要求,液体冷却使冷却能量减少90%,数据中心总能耗降低50%。因此,可以实现<1.03的pue。
从电力角度来看,风冷冷却基础设施不仅增加成本,而且还可能附带高昂的维护费用。液体冷却则没有这些问题。
4  冷却能力和高密度性能
风冷冷却
确实,一些风冷数据中心能够冷却30-35 kw机架。但实际上,风冷数据中心在15 kw 机架以上非常低效。
行业趋势使形势变得更为严峻。耗电 gpu 正在进军,以应对物联网和 ai 等 hpc 应用。用一个例子说明,英特尔®的新skylake版本消耗高达250 w的能量。将其中两个放在1u服务器上,为其他电子设备添加200 w以上,乘以40服务器,基于cpu的系统则有28 kw。添加处理器和加速器,将远远超出风冷冷却的限制。
为满足以上需求,数据中心运营商倾向于创建混合密度的机架。就风冷而言,不可避免地会导致热点,从而导致硬件故障。
值得一提的是,硬件演变将为风冷数据中心的运营商(下一次硬件更新)带来真正的清算时刻。
液体冷却
grc iceraq™ 和 icetank™ 系统通过精心设计突破热障,将数据中心计算带入下一次演进,甚至更进一步。任何一种解决方案都可以轻松冷却每个机架高达100 kw的功率,理论上与冷却液一起使用时可以冷却高达200 kw的功率。
4  可靠性和位置灵活性
风冷冷却 任何风冷冷却技术都注定要面临硬件可靠性问题。究其原因在于it资产暴露于潜在有害的空气污染物以及空气本身的不利影响(主要指腐蚀和氧化)。
风险取决于空气质量和无调节空气本身的自然湿度水平。显然,湿度高、空气污染或风吹颗粒物的地方都可能会对数据中心造成严重破坏。随着对远程边缘部署的需求增加,这些问题也会凸显出来。
说到位置灵活性,风冷冷却固有的复杂性和巨大的基础设施要求为数据中心的放置带来重大障碍。
综上所述,即便采用最佳的通道布置方法,传统的风冷冷却也会产生导致硬件故障的热点。
液体冷却 三个主要因素使液体冷却在此类别中得分最高:
市场上最简单实用冷却形式。出错的更少:没有冷却器,空气处理器,湿度控制等;并且没有服务器风扇来产生可以增加mtbf(平均故障间隔时间)的振动。
沉浸式处理,使it资产与外部空气完全隔离,从而消除环境问题。
数据中心中没有热点。事实上,iceraq或icetank系统中的任何两个点都在两个温度范围内工作。
5  蓝海大脑水冷gpu服务器
基于蓝海大脑超融合平台的水冷gpu服务器及水冷gpu工作站采用 gluster 分布式架构设计提供大存储量,拥有开放融合的特性和超能运算的能力。支持多块gpu显卡,提供出色的静音效果和完美的温控系统。借助 nvidia gpu计算卡可加快神经网络的训练和推理速度,更快地创作精准的光照渲染效果,提供高速视频、图像、声音等处理能力,加速ai 并带来更流畅的交互体验。
6  总结
综上所述,随着数据中心的规模越来越大,部署的机架越来越密集,对服务器负载的要求越加苛刻,传统的风冷冷却技术不再满足数据中心的制冷要求。为解决这个问题,很多企业在其数据中心开始采用液体冷却技术。


程控变频电源通信接口原理是什么?
经典方案:光伏并网发电装置的系统实现
思科公司将裁员!影响的员工超过7100人
电气倒闸操作安全规定
趋势视图的布局
风冷GPU服务器和水冷GPU服务器的综合分析
基于虚拟扇区的Flash存储管理技术
CSP如何构建安全和云原生第三方安全
解析戴姆勒案背后的物联网专利许可争议
一个简单易于制作的电源电路图
物联网怎样改革新服务时代
中国发起汽车行业的革命,将掌握全球电动车主导权
国家出台政策推动LED照明应用发展
产品生态客户并进,Qorvo将与全迹UWB AOA 齐飞
DC/DC和LDO的区别是什么
创想数维入选中国移动通信联合会元宇宙产业工作委员会
GaN Systems和安森美半导体的半桥评估板展示氮化镓的下一个性能飞跃
稳定币业务模型的作用是什么
混频器和变频器的区别
基于KK2.1.5设计的X形四轴飞行器