浪潮NF5468A5 GPU服务器整体设计及性能深度测评解读

近日，浪潮信息推出ai服务器 nf5468a5超值机型限免试用活动。浪潮nf5468a5是一款性能强大、应用场景广泛的gpu服务器，硬件设计合理，可最大化发挥核心组件的性能优势，并通过分区散热设计保障服务器稳定运行,同时广泛兼容主流加速卡，计算性能强大，以更灵活的计算架构最大程度地满足用户在图像识别、自然语言处理、语音识别等多场景应用需求，专业测评媒体将其比喻为算力猛兽。
本文将围绕nf5468a5整体设计及性能测试进行深度测评解读，展现hpl、内存带宽、ai训练、ai推理、视频编解码、hash等应用场景的各类测试数据，如对该ai服务器感兴趣可以申请参加试用活动。
浪潮nf5468a5服务器
nf5468a5是浪潮推出的一款面向ai训练和ai推理、视频编解码等多种应用场景的全能型gpu服务器，在4u空间内搭载2颗amd epyc处理器，支持多达8张双宽加速卡。浪潮官网显示，这款产品已经支持nvidia、amd、intel、寒武纪、燧原等多家业界主流ai加速卡。
本次拿到的样机采用如下配置：
接下来，笔者将从系统解析、性能测试这两个方面对浪潮nf5468a5服务器进行测评。
1. nf5468a5系统解析
1.1 整体系统设计
浪潮nf5468a5 ai服务器采用了4u机架式机箱，高x宽x深为175mm x 478mm x 830mm。整体风格简约、硬朗，不论做工、还是用料、细节，均彰显出大厂品质。
前面板沿用浪潮一贯稳重的黑色，六边形的格栅结构由金属制成，可以将风扇高速旋转产生的湍流风切割成平稳的平流风，从而更平稳的吹向服务器内部。前面板右上角，电源键下方是id、reset按键和系统状态指示灯，前面板左上角则是vga、两个usb 3.0接口和管理接口。前面版的丰富接口，充分考虑了运维人员的工作场景，十分便捷。
浪潮nf5468a5前视图
从后窗来看，nf5468a5在4u空间内提供了8个全高全长双宽pcie x16的物理插槽，支持最新pcie gen4,双向通信带宽高达64gb/s,相比pcie gen3,功耗不变,但通信性能提升1倍。在此基础上产品还提供了3个全高全长单宽x16物理槽位，可支持25g/100g/200g双口光纤，或者千兆/万兆rj45网卡以及8/16端口12gb/s raid卡，可满足客户对网络及存储的要求。同时可支持1个ocp 3.0网卡专用插槽，支持热插拔，将网卡更换时间从20分钟缩短到1分钟，能够大幅提高运维效率。
nf5468a5支持4个电源模组，可以提供1600w~3000w功率的80 plus铂金电源模块，效率高达94%,可选3+1冗余或者2+2冗余，多种组合的冗余电源设计，充分考虑了不同配置ai服务器的负载情况，保障稳定性。
浪潮nf5468a5后视图
整个服务器采用非常紧凑的布局设计，总共分成四个功能区域，从前往后依次是：磁盘存储区、系统散热区、处理器+内存区、gpu+io扩展区。
浪潮nf5468a5内部俯视图
下面我们先看下cpu和内存。这台样机搭配了2颗amd epyc 7543处理器，核心数达到了32核心64线程，基准主频2.8ghz，最大加速时钟频率3.7ghz，l3 cache 256mb，功耗225w。另外，浪潮官网介绍nf5468a5可支持2颗amd基于zen3微架构内核的epyc milan-x处理器，最高128个核心256线程、1536mb l3 cache 以及18 gt/s xgmi互连链路，cpu tdp最大支持280w。样机配置了16根32g ddr4内存，同时可以看到服务器主板整齐排布了32个ddr4内存插槽，最大容量可达8tb，内存总带宽750gb/s，支持rdimm/lrdimm等类型的内存条。nf5468a5强劲的处理器性能、巨大的内存容量和带宽，特别适合ai计算、云计算、hpc以及企业各类业务的工作负载。
浪潮nf5468a5的cpu散热器和内存条
笔者手上的这台nf5468a5，最吸引眼球的是本次测试样机搭配了8颗nvidia a100 40g加速卡，从京东网上的报价看，8张a100的价格已经与一款中高端轿车相当，这究竟是一款什么样的ai服务器，笔者将带大家一探究竟。
我们来重点看一下nf5468a5的gpu模组。样机搭配了8张nvidia a100 pcie 40gb gpu加速卡，由于每张卡功耗高达250w，服务器也给gpu板卡配置了单独供电线，保证gpu卡的稳定工作。为了满足pcie卡的高功率运行，我们看到nf5468a5在gpu板上专门设计了4个用于大电流通流的bus bar，据浪潮的工程师介绍，bus bar的通流能力可以达到2880w，这对于各类pcie加速卡的支持是非常强劲的。
nf5468a5提供了对丰富外插卡的支持，针对a100这种全高全长的卡配置了专用支架，搭配尾部锁片进行固定，这样能增强产品在运输过程中震动、跌落情况下的可靠性。我们翻开尾部锁片，旋转蓝色旋钮，就能非常顺利的取下gpu进行更换，这种针对pcie卡免工具的操作非常人性化。
1.2 系统散热设计
从浪潮官网产品介绍中看到nf5468a5可以支持2颗280w cpu+8颗300w的gpu，在177mm的空间内浪潮究竟是如何实现的？笔者找浪潮工程师拿到了系统风流图，从中可以看出，系统整体风道采用前进后出的方式，散热风流主要从前面板的硬盘及下方开孔处进入系统。风流经系统风扇后通过导风罩的分配，一部分进入下层前排cpu和内存通道，一部分继续往后吹；经过cpu和内存后的风及未被预热的风大部分流向后方上面3u空间的gpu，小部分流向下面1u空间；最后经后面板流出系统。如此巧妙的风道设计和精准的风流控制，足见浪潮作为全球ai领导厂商深厚的设计功底。
系统分离式风流设计
这款服务器将整机柜产品中风扇墙的设计理念搬到了4u机箱中，风扇墙一共由6组可以单独维护的子风扇模组组成，风扇后部搭配了流线型设计的导风罩，覆盖了从风扇到gpu中间的区域，但整个导风罩并没有完全挡住风扇的出风区域，结合上面系统风流图也证明是为实现cpu和gpu独立风道的引流设计，避免风流的串扰，无论多强悍的cpu和gpu都可以驯服。
nf5468a5中置风扇墙和导流设计
1.3 架构设计
笔者查找了海外网站相关浪潮产品的介绍资料，找到一张产品的拓扑图，发现有别于传统cpu-pcie switch-gpu的设计，浪潮产品采用cpu-gpu直连方式。跟浪潮工程师确认，送测的nf5468a5也采用类似设计。工程师介绍，由于省去了pcie switch，2颗cpu与gpu的通讯延迟能降低200~300ns，同时gpu到cpu的通信带宽可以达到256gb/s，较gpu通过pcie switch只有1条与cpu pcie通路比，带宽提升4倍，这种极致的互联架构设计，有助于提升gpu与cpu间数据通信的带宽，有效降低数据的处理延迟。
2. nf5468a5性能测评
2.1 hpl测试
样机搭配2颗amd epyc 7543处理器，这款处理器是32 核 64 线程，基准主频2.8ghz，l3 cache 256mb，最大加速时钟频率最高可达3.7ghz，功耗225w。为了能够了解cpu实际性能，下面将采用hpl基准软件进行测试。
在计算机基准测试软件中，hpl是应用最广泛的基准测试程序之一。通过使用高斯消元法对稠密线性方程组进行求解，hpl可以准确测试系统浮点计算指标。在每年全球超级计算机排名top500中，hpl测试性能是唯一的评价标准。
由于笔者拿到的设备是一台未预装任何软件的裸金属服务器，为了进行相关测试，首先在上面安装了ubuntu20.04操作系统。
然后用hpl软件测试了系统的浮点运行能力。通过如下命令，将测试进程和ccd进行绑定。
# mpi_options=--mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader
# mpi_options=$mpi_options --map-by ppr:1:l3cache -x omp_num_threads=4 -x omp_proc_bind=true -x omp_places=cores
# mpirun $mpi_options -app ./appfile_ccx
在运行之前，还需要设置核心运行在最高频率，清除系统缓存，并开启大页内存等设置，保证获得当前平台最高性能。
echo 3 > /proc/sys/vm/drop_caches
echo 1 > /proc/sys/vm/compact_memory
echo 0 > /proc/sys/kernel/numa_balancing
echo ‘always‘ > /sys/kernel/mm/transparent_hugepage/enabled
echo ‘always‘ > /sys/kernel/mm/transparent_hugepage/defrag
sudocpupower frequency-set-g performance
最终测试浮点计算速度为2.69 tflops，根据当前amd平台理论浮点计算速度，计算效率达到93.74%。
处理器浮点计算测试结果
2.2 内存带宽测试
我们用业界主流的测试软件stream对nf5468a5的内存带宽进行了测试，测试参数如下：
# thread binding options for amd epyc 7742/7763 processor
$exportgomp_cpu_affinity=0-64:8
$ exportomp_num_threads=8
在运行前，清除系统缓存并且开启透明大页内存设置等，设置参数如下：
$echomadvise | tee/sys/kernel/mm/transparent_hugepage/enabled
$echomadvise | tee/sys/kernel/mm/transparent_hugepage/defrag
$ echo 3 > /proc/sys/vm/drop_caches
$ echo 1 > /proc/sys/kernel/numa_balancing
通过以上编译和运行过程中优化，stream测试结果为373 gb/s，根据当前平台理论内存带宽409.6 gb/s,实测内存带宽效率达到91.1%。应该说，这个效率非常高了。
内存带宽测试结果
2.3 训练性能测试
下面我们来测试nf5468a5的ai训练性能。样机配置8张nvidia a100 pcie 40gb gpu，这款gpu采用ampere架构，基于7nm制造工艺，包含了超过540亿个晶体管，拥有6912个cuda核心，搭载了40gb hbm2内存，具备1.6tb/s的内存带宽，fp64性能9.7 tflops，fp32性能19.5 tflops，fp16性能312 tflops。
笔者从github网站上的公共仓库https://github.com/mlcommons/training_results_v1.0中下载了mlperf training v1.0代码，并使用这套代码按照以下测试步骤在nf5468a5上训练resnet50模型。mlperf是一套衡量机器学习系统性能的权威标准，将在标准目标下训练或推理机器学习模型的时间，作为一套系统性能的测量标准。mlperf由图灵奖得主大卫·帕特森（david patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，是国际上最有影响力的人工智能基准测试之一。resnet50是计算机视觉领域中最经典的图像分类模型，广泛应用于图像识别、自动驾驶等场景。
mlperf代码提供了容器配置文件，我们可以很方便的通过配置文件在自己的服务器设备上创建镜像环境,镜像中包含cuda、cudnn、nccl、mxnet等上层组件。但是在运行容器之前，还需要在host os中安装nvidia gpu driver、docker、nvidia-docker这些基础软件。
首先，笔者参考https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#runfile 教程在ubuntu20.04操作系统中下载并安装了r470.82.01版本的驱动；然后按照https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 教程安装docker和nvidia-docker。
通过以下命令构建容器镜像：
$ cd ~/training_results_v1.0/nvidia/benchmarks/resnet/implementations /mxnet
$ docker build -t mlperf1.0-nvidia:image_classification .
在测试之前，通过在nf5468a5_cxx.sh文中添加以下内容绑定核心与进程，最大化的利用系统中的计算资源，达到良好的负载均衡，保证获得最优的性能结果。
bind_cpu_cores=([0]=48-63,176-191 [1]=32-47,160-175 [2]=16-31,144-159 [3]=0-15,128-143
[4]=112-127,240-254 [5]=96-111,224-239 [6]=80-95,208-223 [7]=64-79,192-207)
bind_mem=([0]=3 [1]=2 [2]=1 [3]=0
[4]=7 [5]=6 [6]=5 [7]=4)
测试环境准备完成，执行以下指令开始测试：
激活环境变量：
$ source config_nf5468a5.sh
$ export cont=mlperf1.0-nvidia:image_classification
$ export datadir=/home/data/mxnet_imagenet/
$ export logdir=/home/resnet50/
执行测试脚本：
$ ./run_with_docker.sh
测试结果为21486 images/sec，也就是35分钟即可完成resnet50模型的训练。参考最近几期mlperf训练榜单，搭载8张nvidia a100 40g gpu卡的服务器的最好成绩是36.2分钟。可以说，在同等gpu配置的服务器中，浪潮nf5468a5的resnet50训练性能是最好的。
2.4 推理性能测试
笔者也测试在目前推理场景中热度最高的nvidia tesla t4，这款精致的gpu卡只有75w，采用turing架构, 在半高卡的尺寸内集成320个turing tensor core和2560个turing cuda core，配备16gb gddr6，支持fp32/fp16/int8/int4等多种精度的运算，fp16的峰值性能为65t，int8为130t，int4为260t。
nvidia tesla t4 gpu
推理性能测试同样使用了mlperf测试工具，本次测试是基于mlperf inference v1.0.复用了训练测试时使用的os、docker、nvidia-docker等基础软件环境。
我们在nf5468a5搭载1张nvidia t4 gpu，使用github网站上的公开代码https://github.com/mlcommons/inference_results_v1.0，按照如下步骤测试了resnet50模型的推理性能：
同训练时一样，首先要构建容器镜像：
# unzip mlperf-inference-release.zip
# cd /mlperf-inference-release/closed/inspur
# export mlperf_scratch_path=/home/inspur/data/data_mlperf/
# make prebuild
(备注：prebuild后会自动进入容器实例)
然后执行以下指令开始测试：
sudo cuda_visible_devices=0 make run run_args=--benchmark=resnet50 --scenarios=offline --config_ver=default --test_mode=performanceonly --fast
在图像分类应用场景中，使用imagenet数据集，resnet50测试结果是每秒处理5671.9 张图片。我们了解到nvidia t4的resnet50推理性能为每秒5000张图片左右。应该说，在nf5468a5上测得的t4推理性能非常好了。
resnet50推理测试结果
笔者也拿到了寒武纪mlu270-s4推理加速卡。mlu270-s4采用tsmc 16nm工艺制造，集成16gb ddr4 内存，支持ecc，同时兼容int4和int16运算，理论峰值分别达到256tops和64tops。
我们发现nf5468a5对寒武纪的板卡也做了很好的兼容性适配，bmc可以显示mlu270-s4的资产信息，风扇转速也根据mlu270-s4的功耗进行了调整，相比a100，能够明显感觉到风扇转速主动降低了。不得不说，浪潮服务器的散热控制做得很精细。
寒武纪mlu270-s4加速卡
我们在nf5468a5上插了1张mlu270-s4，测试了caffe框架下的resnet18、pytorch框架下的googlenet以及tensorflow下的resnet101v1.5、vgg16和inceptionv3这几个模型的推理性能，在使用int8精度时，计算性能分别为每秒7440、5800、2400、1400和1000张。
笔者分析，浪潮nf5468a5在训练和推理测试中能取得这么好的成绩主要有三个原因：第一，resnet50模型从算法上还是需要cpu进行一定的图像预取和处理操作，本次送测的amd 7543具备32核心2.8ghz主频，有助于图像在cpu端的预处理工作；第二，nf5468a5采用cpu和gpu直连设计，有效降低数据的处理延迟，同时单个cpu与gpu通信带宽高达128gb/s；第三，nf5468a5可以支持nvme ssd作为数据盘，通过将多颗nvme sdd数据盘组建raid，可以极大的提升磁盘io能力，在ai这种需要频繁读取数据的场景中，能够非常有效的避免因为io短板带来的性能瓶颈。
2.5 视频编解码性能测试
笔者在nf5468a5服务器上也评测了浪潮自研的m10a加速卡。
据浪潮官网介绍，m10a是一款面向ai场景优化设计的vpu(video processing unit), vpu是一种全新的视频处理核心引擎，将视频处理功能做成asic芯片，具有硬件编码、硬件解码、硬件转码等视频加速功能，可以减少服务器在视频处理业务上的计算性能消耗和降低视频传输对网络带宽的需求。
m10a在8w功耗下可以提供16路1080p30视频的加速能力，相当于每路1080p视频加速仅需0.5w。m10a针对h.265视频格式压缩算法进行了特殊优化，实测数据表明m10a的h.265编码效果可以使得网络带宽利用率翻倍，同时计算cpu负荷最低可降至2%，适用于直播、短视频、云游戏、视频会议等场景。
浪潮m10加速卡
在ffmpeg视频框架下，我们直接用软件sdk中的demo脚本，测试了m10a在不同视频分辨率下的性能数据，如下是16路1080p全高清视频实时转码的性能测试情况：
在测试的过程中，我们发现m10a vpu芯片内部是多核结构，这将进一步降低视频处理延迟，提高多路视频转码时的性能稳定性。
从测试结果看到，m10a进行16路1080p全高清视频转码时，每路视频转码性能都能达到33fps，达到了浪潮官方宣传的性能。
m10a视频转码性能测试结果
另外，我们还测试了4k超高清和720p高清分辨率下的m10a的性能数据，分别可以达到4k 120fps和720p 960fps，解码、编码和转码的性能都是一致的。
在我们跟视频行业技术大咖的交流中了解到，一张m10a的视频处理能力相当于一台双路服务器的性能，m10a具有高性能、低功耗的优点，这对视频行业来说是一个非常高性价比的解决方案。
2.6 hash性能测试
除了前面讲到的几张加速卡，笔者也尝试了其他板卡，比如主流的消费级显卡rtx3090等，发现nf5468a5都做了很好的适配工作。
rtx3090采用第2代nvidia rtx架构-nvidia ampere架构，采用8纳米工艺，拥有10496个cuda核心，搭载了24 gb gddr6x内存，384bit位宽。
rtx3090显卡
下面，我们来看看浪潮5468a5搭载rtx3090显卡在区块链场景的性能。基于t-rex这个知名的应用软件，笔者对业界主流的哈希算法进行了性能测试。t-rex不仅支持区块链场景中最常用的ethash算法，也支持其他诸如blake3、mtp等哈希算法。
ethash算法性能测试过程
针对每种hash算法，我们使用了t-rex软件的benchmark模型，在单个3090显卡上进行测试，每次测试持续10分钟时间，并记录了最终的性能数据，如下表所示。
浪潮nf5468a5+单卡rtx3090 hash算法测试结果
其中ethash算法的单卡性能达到了108mh/s。
这在很大程度上得益于nf5468a5优秀的散热设计。rtx3090的功耗高达350w，在区块链场景，显卡通常是7*24小时运行，因此对散热的要求非常高。笔者监控了整个测试过程中的gpu功耗和温度情况，发现在长达半天的测试过程中，虽然gpu功耗长期维持在330~340w之间，但是gpu的温度一直维持在60℃左右，甚至在多卡同时运行时，gpu的温度也能保持在60℃左右，可以看出nf5468a5的散热设计做得相当不错。
3. nf5468a5服务器测评总结
通过对产品外观和内部设计的评测，我们看到，浪潮nf5468a5在产品设计上，存储、计算、风扇、gpu扩展等各模块简洁明朗，尤其是巧妙的分区散热设计有效实现cpu与gpu模组的分流，丰富的存储+io扩展性，同时人性化的设计以扎实的做工，也彰显出浪潮对产品细节的严谨和大厂雄厚的设计实力。
在整体实际性能的综合测试，得益于浪潮高效的产品架构，最大发挥cpu与gpu之间的通讯效能，处理器计算效率达到93.74%，实测内存带宽373 gb/s，搭配8张a100训练resnet50模型得到每秒处理21486张图片的惊人算力，在imagenet数据集下进行resnet50推理测试展现超出t4标称13%的图片处理能力，这台算力猛兽全方位的表现，相信给笔者和大家都留下了深刻的印象。
此外，ethash算法单卡性能突破100mh/s；很好地支持寒武纪国产推理卡，轻松实现每秒处理图片超7000张；搭载视频转码卡m10a展示了480fps 1080p视频转码性能。浪潮nf5468a5还有很多意想不到的潜能，笔者期待进一步的发掘，给大家带来更精彩的评测。

农作物叶片养分检测仪的产品介绍
TCL宣布t6、t7屋顶分布式光伏发电项目并网投产
电动机应用变频技术有什么好处
下一个万亿级市场,什么是“泛在电力物联网”?
2020十佳5G行业应用实践揭晓
浪潮NF5468A5 GPU服务器整体设计及性能深度测评解读
为什么几百种编程语言偏偏Python炙手可热？
加速智慧能源转型赛昉科技、微五科技携手名气家打造“港华芯”
中兴通讯与美亚光电合作将共同构建5G智慧医疗行业示范标杆
LG Display广州8.5代OLED面板生产线获批,明年投产
索尼发布1742万有效像素车载图像传感器，高通宣布：与苹果再续约3年
基于ARM的汽车“黑匣子”设计
低电感电源总线
在寒冷的冬天如何预防电线电缆外皮脱落现象
APS智能排产在智能制造转型的应用
这家来自印度的机器学习公司为什么会被苹果收购
是时候告别汽车照明离散解决方案了
中国移动面向未来将继续深化贯彻落实“5G+工业互联网”512工程
欧亚经济联盟将于2017年8月31日前取消电动汽车进口关税
谷歌Pixel 4系列将拥有四种全新配色，配备18W USB-C充电器