论AI的系统厂商vs系统厂商的AI

01
前 言
10月初dell在austin的一个event “bring ai to your data”宣传上,科技媒体65请了dell 的一个vp来讨论,在讨论中一向比较直接的patrick就问了一个所有系统厂商的灵魂问题:“dell 在ai的软件和算法上没有投入,在ai加速的芯片上也没有投入,你们在谈ai到底在谈啥?”。好在是vp比较机灵,先谈“dell是个大公司,客户多,很多客户不知道ai是个啥,dell可以提供h100的gpu服务器,然后就是ai肯定要存储的,因为大数据要靠ai,数据的保护和管理,bablbabl.。.“。说实在的,如果ai的数据真的很重要的话。samsung和seagate应该是世界上市值最高的ai公司了。关心股市的同学知道,在这个宇宙中并不是。
俺是正统的系统厂商出身,毕业实习的时候在华腾(就是那个天腾和华东计算机所合资)做系统集成,很巧的是在俺公司现址的楼下,一天被当年带的新毕业生认出来,当年的毕业生已经是华腾的cto了,在华腾工作了24年,从系统集成公司进化成上万人外包的大公司了。其实,在x86兴起的200x年代,互联网还在融资,系统集成公司的日子还是不错的,企业客户都面临这个信息化这个话题,系统集成公司是软硬一体的,可以像dell今天满足客户ai需求一样满足客户的信息化需求。
当互联网兴起之后,系统集成公司的日子基本上到头了,互联网只要硬件,人家有的是软件工程师。后面,随着ssd出现,高速网络出现, intel手下的系统公司基本上被台厂,后面被互联网的系统部全部踢出局了。当然,俺早早的跳出这个领域,向下做到了ssd部件厂商,以至于前一段一个哥们问我服务器还是啥搞头,俺可是在联想,dell做了快10年的服务器的人,居然真的想不出来服务器还能有啥花头。
02
缘 起
回到正题, ai从2012年开始,基本上起起伏伏快10年了,在nvidia面临游戏和加密货币的下滑的双重打击下,gptx异军突起,让老黄放飞了自我。就像前面讲的一样,ai的投资基本上在ai的网络算法和ai加速器两个方向。为啥这次llm只是火了ai算法,但是一票ai加速器公司反而悄无声息?原因也很简单,就像在meta做ai infra的dr. kim hazelwood讲的一样,在ai的框架世界中,高效的框架是打不过好用的框架的,因为对算法工程来讲,2小时和12小时没有区别,反正下班前提交了,只要明天上班的时候能出来就行。
因此,在ai框架的竞争中,pytorch战胜了tensorflow【1】。
对了,pytorch就是meta的,前面的计算机科学家kim的评论(2020)圆满了。而pytorch的特点就是好用,有2000+ 算子,这个对于ai加速器来讲就是灭顶之灾。之前那些学google tpu做脉动整列的,做tensor/vector加速的startup基本上被强大的cuda打趴下了。
但是,如果是这样的话,就没有本文的标题了,在硅谷走老黄的路的公司基本都没有了,只有中国还在和a股互动炒作gpu的概念,而真正可以对标老黄的公司都不是走gpu的路线。反而是两家做可编程dataflow的公司成为了热点,而且都是ai的系统公司。
03
sambanova
kunle olukotun的名号是“father of the mutil-core processor”,之前的公司是afara websystem,做最早的多核系统。
从这一页,看不懂niagara的同学可以劝退了。看懂的童鞋可以点赞了。这么老的古董,现在散落在不同的公司的sun可以缅怀一分钟。
另一个大佬是chris,主要是做软件的,公司被apple收购。
做多核cpu和做大数据管理的在一起,故事很直接。ml application就是software 2.0呀。
2019年回来的芯片很大很大,比gpu还大,725mm2。4个ddr4 controller支持1.5t。64lane pcie gen4.0 做单机8卡互联。(不错,我们是i/o控)。
这张图说明了,2019年已经tapeout的片子,现在刚刚热起来。编译器的能力,特别是可编程的并行能力,需要时间呀。
芯片上的主要部分,和大部分ai加速器类似,计算单元,sram做weight/gradient的保存, agu和su做数据路由,cu就是控制了。
单机8卡,和老黄对标。
产品文档很全面,有自己的编译器和开发环境。硬件也是用amd的pcie的标准服务器带8个加速器。其中的hci就是自己互联的方案,基于pcie gen4,从接口的形态看应该是4口一组的pcie hba类似。
hci组网方式基本上就是full mesh,4个计算节点互联和头节点互联。 节点之间的连接还有用rocev2的ethernet以及junper的交换机。只是hci没有用pcie switch,看cable做pointer to pointer的互联,可能和nvlinkv1一样,没有做nvswitch。
作为ai的系统厂商来讲,sambanova还是很不错的,除了一些美国的国家实验室以外,还有一些做金融和文本处理的公司。而且关键是2代的芯片也回来了,支持hbm, 支持5t的llms【2】。
04
cerebras
说到这家,必须讲它的出处 seamicro. 对,下图就是8个server在一个5x11英寸的pcb上。它是arm进军数据中心的先烈,被amd收购了,被lisa su杀死了。这种类型的板子,我当年在dcs的时候也搞过类似的低功耗microserver。
cerebras的核心人物都是seamicro的背景。
关于cerebas,正好之前有材料,这里就快速总结了。
通过rocev2的rdma进行系统扩展。weight的存储和计算节点通过ethernet互联。
对于weight节点独立,很好地解决了gpu因为内存不够出现的data 并行的问题,在大模型时代成了杀手锏。通过on-chip memory和memoryx的流水线处理,很好地解决了之前gpu training中参数服务器的问题。
计算单元的设计还是软硬结合,编译器做调度编排,整个片子上网络没有中心的控制。
最后,在llms时代,pytorch的胜利逻辑会继续。
相对于sambanova, 因为cerebras的步子更大,不仅在国家实验室有落地,更加在llms时代找到了方向。
05
尾 声
在过去2016年ai的创业风潮起来之后,gpu的颠覆者到现在还没有出现,的确让人比较遗憾。后面的路会怎么走,我还是比较认可andrej karpathy的判断, transformers可能会走上模型的统一。
模型+数据+算力=ml application, chris指出的方向也许是ai创业公司盈利的方向???
回到正题,也许下一波就是ai公司成为ai系统厂商,或者系统厂商收购ai公司成为ai系统厂商的时代了。

工信部发布2020年通信业统计公报
干货!LED内置电源高低贵贱用眼睛就能看出来!
基于C8051F040单片机的CAN总线通信
区块链数字资产抵押借贷系统开发团队
Verizon预计到今年年底将会在60多个城市中推出5G服务
论AI的系统厂商vs系统厂商的AI
Google Play 游戏打造设备间的无缝切换体验
光耦的工作特性介绍
南京江北新区集聚集成电路相关企业超400家 今年集成电路产业规模有望突破500亿
SEM扫描电镜中钨灯丝与场发射的区别
备受广大果粉期待的2021全球开发者大会终于要来了
混合动力汽车电池均衡方案的研究
如何创建可以通过USB OTG电缆与Arduino通信的android应用程序
服务机器人企业云迹科技完成C轮融资
半导体芯片的升压芯片有哪些种类 升压芯片是如何升压的
HarmonyOS生态边界答疑 HarmonyOS如何给开发者提供技术支持
商用终端千兆级LTE正式到来!中国移动完成千兆级外场测试
科学家研发可替代泡沫塑料的隔热材料
美国军方正在追赶人工智能的“第三次浪潮”,届时机器人将具备10岁儿童的基本常识
5G平台构建的标准化和生态系统是未来主要任务