蓝海大脑服务器全力支持NVIDIA H100 GPU

导语
1.gpu的价值不止体现在深度学习，在高性能计算、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域，算法越来越复杂，需要处理的海量数据越来越巨大，高性能计算能力就显得尤为重要。近日为满足gpu服务器、高性能服务器、深度学习服务器、水冷工作站、水冷服务器、液冷工作站、液冷服务器等的高速运转，英伟达发布产品——h100 gpu。
2.随着信息技术的快速发展,高性能服务器的需求不断增长。为保障服务器长期可靠稳定运行,合适的散热技术显得至关重要。
3.基于蓝海大脑超融合平台的水冷gpu服务器及水冷gpu工作站采用绿色冷却技术，gluster 分布式架构设计，提供大存储量，拥有开放融合的特性和超能运算的能力。
1 蓝海大脑服务器于 nvidia h100 gpu
蓝海大脑宣布服务器产品线全力支持最新的 nvidia h100 gpu。蓝海大脑服务器产品在单机上最多可支持4、8甚至9个h100 gpu，可为多种人工智能场景提供超强算力、灵活的资源调度和成熟的生态支持。
搭载nvidia h100 gpu的蓝海大脑服务器具有更强计算性能、更高的gpu间通信带宽和创新的计算架构，支持用户对更大、更复杂的模型进行训练和推理。同时，搭配蓝海大脑算力资源管理平台，用户可以更加便捷高效地使用ai集群算力资源。
据官方数据显示，全新的nvidia gh100 gpu不是基于之前传闻的台积电 n5工艺，而是使用更先进的n4工艺。整个芯片面积814mm²，相比ga100要小，但集成800亿晶体管，并采用更高频率的设计。
完整规格的gh100 gpu规格，包含总计8个gpc图形集群，72个tpc纹理集群，144个sm流式多处理器，共计18432个fp32 cuda核心(与目前传闻中ad102完整版完全吻合)，专用于ai训练的第四代张量核心tensorcore为每组sm配备4个，共计528个。显存方面最大支持6个hbm3或hbm2e堆栈，6144bit显存位宽，l2缓存提升到60mb，并支持第四代nvlink和pcie gen5。
不过，gh100是面向人工智能、数据分析等负载构建的，不是图形处理。sxm5版和pcie h100所使用的gh100 gpu中，只有两个tpc具有图形处理能力。
gh100 gpu用于两个款式的加速卡上，分别为sxm5版和pcie5版，sxm协议更多用在密集计算的数据中心上，规格也更高一些。大概是受制于良率，即便是高规格的sxm5版也并不是满血的gh100核心。
h100 sxm5使用的h100 gpu规格为66个tpc纹理集群，sm数量下降到132组，而cuda数量也下降到16896个(但相比于目前的ga100岂止于翻倍)，张量核心为528个。显存方面，h100 sxm5启用5个hbm3堆栈，共计80gb，显存位宽为5120bit。l2缓存也下降到50mb，对比a100依然有25%提升。
pcie5版的h100 cnx，集成cx7芯片，可将网络数据以50gb/s的速度直接传输给gh100 gpu处理
pcie版虽然更多用于小型企业，但是pcie版的性能也是不容小觑。pcie版采用进一步缩减的gh100 gpu，sm数量下降到114组，cuda数量下降到14592个，张量核心则缩减到了456个。显存方面，启用的是5个hbm2e堆栈，容量与sxm5版相同，为80gb 5120bit位宽，l2缓存大小一致。
白皮书揭露了新的h100两款fp32算力(一般用户可以关注的指标)，132组sm/16896cuda的sxm5版本，fp32单精度算力为60tflops。根据csdn一篇文章提供的公式：单精度理论峰值=fp32 cores*gpu频率*2，可以推出工作频率约为1775mhz。而a100加速卡的ga100核心工作频率为1410mhz，频率提升近26%。geforce产品使用的gpu往往会给到更高的频率，下一代rtx 40有望2g起步?
在算力方面，h100 sxm5对比现在的a100在多个项目中都超过200%的提升，最低的fp16半精度运算也有50%的性能提升，可谓是碾压级。
在演讲上，老黄更是直接带来h100在三种负载下对比a100的效率提升，训练transformer模型从5天缩短到了19小时，而在结合英伟达多项尖端软硬件条件下，整个模型训练从7天缩短到了20小时，效率足足提升9倍。
蓝海大脑是全球领先的ai服务器厂商，拥有丰富的ai计算产品阵列，并和ai客户紧密合作，帮助其在语音、语义、图像、视频、搜索等各方面取得数量级的ai应用性能提升。
2 高性能机架式服务器散热
随着信息技术的快速发展，对高性能服务器的需求越来越大。为保证服务器长期可靠稳定的运行，合适的散热技术非常重要。下面以高性能机架式服务器为研究对象，分析比较强制风冷与间接液冷下服务器的散热效果。结果表明，在低负荷下，强制风冷与间接液冷差别不大。在高负荷下，间接液冷的散热效果优于强制风冷。
一、研究背景
随着信息技术的快速发展,尤其是 5g 通信技术的出现，支撑大数据运行的服务器需求不断增长。为保障服务器稳定运行,合适的散热技术显得至关重要。机架式服务器是指按照工业标准可以直接安装在 19 英寸宽机柜中的服务器。目前机架式服务器的主流散热方式为强制风冷和间接液冷。
二、基于强制风冷的服务器散热仿真研究
2.1 仿真边界条件设置
一般情况下，当流体速度小于 1/3 风速时，可将流体看作不可压缩流体，因此可将服务器内部空气视作不可压缩流体。服务器内部一共有 6 颗轴流式风扇，其中电源模块单独有一个轴流风扇冷却。轴流风扇采用吹风散热方式冷却 cpu 和内存，硬盘最靠近进风口，出风口压力设为大气压力，环境温度设为 25℃。
2.2 仿真结果分析
服务器散热效果评价指标有 cpu、内存、硬盘的最高温度。环境温度 25℃，忽略服务器与外界环境的辐射换热，分别对服务器低负荷和高负荷两种状态进行仿真。
从图可以看出，无论是低负荷还是高负荷，服务器内部最高温度出现在 cpu 上，其次是内存的温度较高，而硬盘最靠近进风口，其温度最低。
下表为服务器主要发热部件的温度汇总表。在低负荷状态下，服务器各部件的温度均得到较好的控制，cpu 温度低于长期运行允许的温度值;而在高负荷状态下，cpu 的温度急剧上升，超过峰值允许的温度值。
三、基于间接液冷的服务器散热仿真研究3.1 机架式服务器液冷仿真模型建立
间接液冷机架式服务器内含电源模块、cpu(两个)、内存、硬盘、液冷板、水泵等部件。
液冷散热板作为水冷系统的重要组成部分，主要是将发热元器件产生的热量与冷却液充分交换。水冷系统部分如图所示，由igbt、水冷散热板、铝合金板以及铝条安装件组成。
一般情况下，当流体速度小于 1/3 风速时，可将流体看作不可压缩流体，因此可将服务器内部空气以及流道内液体视作不可压缩流体。服务器内部一共有 4 颗轴流式风扇，其中电源模块单独有一个轴流风扇冷却。轴流风扇采用吹风散热方式冷却cpu 和内存，硬盘最靠近进风口，出风口压力设为大气压力，环境温度设为 25℃，液冷板入口流体温度为 25℃。
3.2 仿真结果分析
服务器散热效果评价指标有 cpu、内存、硬盘的最高温度。环境温度 25℃，忽略服务器与外界环境的辐射换热，分别对服务器低负荷和高负荷两种状态进行仿真。
从图可以看出，在低负荷状态时，最高温度出现在内存上，当服务器处于高负荷时，服务器内部最高温度出现在 cpu 上，其次是内存的温度较高，而硬盘最靠近进风口，其温度最低。
下表为服务器主要发热部件的温度汇总表。在低负荷状态下，服务器各部件的温度均得到较好的控制，cpu 温度低于长期运行允许的温度值;在高负荷状态下，cpu 的温度稍有上升，但没超过峰值允许的温度值。与强制风冷相比，间接液冷方式下，内存和硬盘的温度稍有升高，这是因为减少风扇的原因;而 cpu 的温度降低，因为水的导热系数和比热容等远大于空气的导热系数和比热容。因此对于高负荷的服务器，建议采用间接液冷散热方式。
3 蓝海大脑液冷散热服务器
基于蓝海大脑超融合平台的水冷gpu服务器及水冷gpu工作站采用绿色冷却技术，gluster 分布式架构设计，提供大存储量，拥有开放融合的特性和超能运算的能力。支持多块gpu显卡，提供出色的静音效果和完美的温控系统。借助 nvidia gpu计算卡可加快神经网络的训练和推理速度，更快地创作精准的光照渲染效果，提供高速视频、图像、声音等处理能力，加速ai 并带来更流畅的交互体验。

中企寻求与韩国合作伙伴以规避美国电动汽车规则
基于BIST利用ORCA结构测试FPGA逻辑单元的方法
小米发布会小米5C是主角没错但还有这款红米4X亮相
一种利用两种不同温度系数材料来实现温度传感器的技术的概述
荣耀9什么时候上市？荣耀9最新消息：华为荣耀9真机曝光，荣耀旗舰新颜值担当
蓝海大脑服务器全力支持NVIDIA H100 GPU
Boost电路具有动态修正误差的滑模变结构控制
从华为危机看中国尚未掌控的核心技术清单：高端光缆、SDN等在列
独立服务器和云服务器的区别
基于MEMS技术的微型硅基声呐器件提供了毫米级精度的距离传感功能
传输超过100GHz的无线收发器能超越5G？
MIT尝试以机器学习技术改变药物研发流程
Windows 10 Version 1809支持时间延长
2021年能源效率接近智能家居技术的最高要求
搪瓷管空预器出现裂纹的原因
螺纹自动检测设备的详细介绍
打脸特朗普!英国首相强调不会禁用华为设备
湖北5G+工业互联网融合发展成效显著
外贴式液位计在氯乙烯球罐上的应用
汽车led大灯十大排名