wd的sn840 nvmessd新品并没有太吸引我注意,因为它还是pcie 3.0接口的,要知道intel的pcie 4.0 ssd都已经推出了。(我在《看不懂的性能和寿命?intel optane持久内存200、lga4189杂谈》中提到过)
但上面这个nvme-of(nvme over fabric)ebof(区别于普通jbof的第一个字母表示ethernet)我就有点兴趣了。前一段看到刘爱贵博士的公司——大道云行宣布的分布式软件定义存储新品,使用了一家国内的e-jbof,想从官网找公开资料学习下都不太多。在这点上国际品牌往往要做得完善一些,否则我也写不出本文的分享。
从sas jbod到nvme jbof和ebof
谈到nvme jbof的前身,sas jbod磁盘(hdd/ssd)扩展柜不得不提,下面只用一张图简单交代下jbod里的sas expander控制模块。
上图从10年前的一段视频里截出,可以说是lsi在6gb/s sas时代的经典之一(dell powervault md1200/1220 jbod基本相同),也勾起了我一段曾经美好的回忆。2u驱动器机箱里有2个ha路径的sas expander——只用lsi sas2x36芯片作为核心即可。
相比之下,nvme-ofjbof/ebof至少要在物理上把pcie转换为以太网,所以结构不可能如此简单。我们先来看看下面这块“网卡”。
这颗芯片的型号是wdrapidflex a1000 nvme-of asic,对应的板卡为rapidflex c1000 nvme-of adapter,不难看出是用来干啥的。规格如下:
其网口部分提供1个100gbe或者2个50/25gbe以太网,协议支持roce、iwarp/tcp,看产品名称自然也支持nvme。pcie接口支持root complex,看来是用于连接nvme ssd的;pcie gen3 x16还能拆分成2个x8来使用(连接多个pcieswitch)。
上图是基于rapidflex a1000的ebof参考架构。位于机箱前部的nvme ssd通过热插拔背板连接到2块控制电路板——应该支持双端口ssd的2个pcie 3.0 x2多路径访问,然后经过pcie switch之后,就连接到几个rapidflex a1000 asic对前端服务器提供nvme-of访问。同时有bmc / 机箱服务模块用于带外管理。
看这个wd单芯片解决方案就更清楚了。所谓“6-way无阻塞内存子系统”,其实rapidflex a1000 asic是无需dram内存工作的,它的工作其实很单一——就是那个“mpu”实现nvme(连接ssd)到nvme-of(over rdma)之间的转换。
再来看看wd openflex data24 nvme jbof(ebof)的后视图。左右2个iom模块上各自可以插3块网卡,应该就是前面提到的rapidflex c1000 nvme-of adapter。
这里重点看一下openflex data24的高可用和性能设计。在2个iom模块中,每个上面应该是用了不低于96 lane pcie 3.0 switch芯片——下行48 lane连接nvme ssd,然后3个x16连接rapidflex网卡。除了到以太网那里带宽打一点折扣之外,pcie链路的“收敛比”是1:1性能无损的。
openflex data24给出的性能指标是13.2m iops和70.7gb/s,平均每块ssd接近55万iops和3gb/s带宽,这个几乎把6个100gbe网口跑满了,每块网卡平均220万iops。
nvme-of ebof高级实现方式、闪存阵列的区别
前面讨论的wd产品只是最基本的以太网jbof,可以说与sas jbod和pcienvme jbof的地位没有本质区别——支持用来连接盘,而并没有更多高级管理功能。再往上一点的方案是什么呢?下面我拿mellanox和broadcom的产品来简单举个例。
关于mellanoxbluefield我有2篇写的比较早,收录在《存储网络交换、nvme of》专辑中,大家也可以找最新的资料看看。
上图这款卡,在winnieshao博士的大作《智能网卡smartnic:“大”x86 server中的“小”armserver》中也被提到过。broadcomstingray板卡的主控芯片bcm58800也是一颗arm soc,它在拓扑图中的位置有点类似于前面的wd rapidflex,但既然敢称为闪存阵列(flash array)而不只是e-jbof自然有所不同。
上图这份资料有点老。arm和网卡部分我就不多谈了,broadcom本身就是做网络出身的。soc同时包含双通道ddr4内存控制器,具备接近100gb/s hash和加密引擎(也能用于重删)、raid 5 xor和raid 6 p+q galois/erasure纠删码支持。
除了基于rdma的nvme-of之外,stingraysmartnic的应用方案还包括nvme-tcp(扩展阅读:《nvme over tcp:iscsi的接班人?》),这一点我理解wd rapidflex网卡就做不到了。类似的还有对象存储,已经超出了jbof/ebof的基本功能范畴。
关于存储服务offload卸载这一块,如果是传统企业存储市场中功能强大的闪存阵列,只靠smartnic显然又不够了。下图引用自《dellemc powerstore详解:nvme+sas全闪存阵列,还是一体机?》,只是举个例。
关于写缓存镜像,以及数据缩减(压缩/重删)处理,只是powerstore存储系统数据路径中的一部分流程而已。其实我理解nvram盘只是为了保障数据的持久化(估计是一个副本),真正的处理还是要放在dram主内存中才能高效。至于更多的高级存储服务,就需要用到控制器中强大的服务器级别cpu了(具体到powerstore使用的是xeonscalable)。
M.2 SSD安装需要注意的事项介绍
关于领域大模型-训练Trick&落地的一点思考
大功率冷热冲击试验箱实用制冷系统解读
国芯思辰|地芯科技16位8通道SAR型模数转换器GAD7689(替代AD7689)用于锂电池化成分容设备
有哪些智能手表既好看,又能独立通信功能?
NVMe-oF E-JBOF设计解析
传特斯拉使用不良零件组装,官方回应
AI时代的到来衍生了上千种AI从业方向!
手掌识别实现无感支付 但暂时无法替代卡证系统
华为首部鸿蒙手机P50即将发布
3伏汽车适配器电路图解说明
如何应用设计模式的思想写出更优质的嵌入式软件应用程序代码
微雪电子QFN8转DIP8测试座简介
鼎桥携手Forsk提供一流TD-SCDMA网规服务
小米6发布会:小米新机三连发?小米6Plus或有惊喜,小米Max2巨屏之外续航更强
VxWorks里怎样load一个文件到内存?
高效降噪话筒制作方法
易天新引进100G交换机验证设备
基于新型氮化MXene材料Mn₂NO₂的电子性质和材料的热电性质
强劲深度图像性能现场体验!奥比中光两款3D标品相机亮相China3DV