台积电5nm与三星5nm的本质差异 三星5LPE与台积电N5详解

“5nm翻车”也算是近期的一个热门话题了,似乎去年下半年发布的,包括骁龙888、麒麟9000、苹果a14等在内的一众应用了5nm工艺的手机芯片,都在功耗和发热表现上不够理想。
骁龙888(小米11)跑个geekbench 5,单cpu功耗就达到了7.8w,堪称骁龙近代能耗比最差,adreno gpu性能首次逊于隔壁mali;而麒麟9000(华为mate40 pro)虽说gpu性能上去了,但在光明山脉测试中,跑出了11w的峰值功耗;这都是向着pc功耗看齐的节奏了。很多媒体也因此将5nm冠以“集体翻车”的名号。
高通骁龙888、三星exynos 2100选择三星5nm,而海思麒麟9000、苹果a14选择了台积电5nm。事实上,即便都叫5nm,台积电和三星的5nm工艺也差异甚远——所以“集体翻车”这种说法首先就值得商榷。这两者甚至不该直接比较。本文我们根据wikichip、semiwiki、semiconductor digest等机构所做的研究,尝试谈谈两家5nm工艺的一些基本差异。
虽说从微观层面,比如材料、晶体管性能等无法直接比较;而且台积电甚至没有公开5nm工艺晶体管的关键尺寸(暂时也没有5nm工艺的相关“拆解”)。本文仅尝试给出两者大方向上的差异。
虽说主流芯片功耗爆表是否真的与台积电、三星的5nm工艺有关,个人持保留意见。但通过这篇文章,我们也能更好地理解,如今的尖端工艺发展成了什么样。
到底晶体管的哪个部分是5nm?
在探讨两种5nm工艺差异前,首先仍需明确一个概念。即现在的“几nm”工艺这样的称谓,顶多就是个营销概念。不管是7nm还是5nm,晶体管或者芯片微观层面,都不存在哪个几何参数是7nm或5nm。如此一来,5nm也就名副其实地成为了一个虚指,它仅能用于表达一个工艺节点,“5”不存在实际意义。
早在1997年以前,几点几微米或几百纳米工艺,的确是指晶体管上gate(栅或闸)的长度(lg)。比如0.35μm,350nm,确实就是指gate长度为350nm。在350nm制造工艺以前的时代,工艺数字步进以0.7倍为节奏,比如350nm x0.7,下一代工艺就该是250nm了。
finfet结构晶体管
不过到了奔腾3时期的250nm工艺,实则已经不再真正指代晶体管gate长度。250nm节点的gate长度已经来到了190nm,但晶体管的其他部分却无法以对等的比例来同步缩减。从这一时期开始,工艺节点的这一数字便不再具有太大的实际意义。2012年22nm节点问世时,随之而来的finfet晶体管结构。这种3d结构要用一个数字来衡量晶体管尺寸也更难了。
在20nm以后,越来越多的节点数字也抛弃了0.7倍步进的传统。14nm、7nm、5nm虽然仍遵循0.7倍步进传统,但12nm、8nm、6nm、4nm等则显然更具营销意味了。自不必说,这些数字本身,除了表达工艺迭代之外,便再无更多意义。
若一定要说在晶体管上,与如今这个节点数字还有所关联的部分,那大概就是fin宽度了,上面这张图是intel的14nm与10nm两代工艺,晶体管各关键参数的变化,其中fin宽度大致与节点数字是一个量级。
台积电5nm与三星5nm的本质差异
我在去年《同样是台积电7nm,苹果和华为的7nm其实不一样》一文中曾大致总结过,台积电与三星7nm可认为是同代工艺,从wikichip预估的数字来看,这两者的晶体管密度(高密度库)应该也差不了多少。
但这两家fab的工艺路线方向却已经发生了较大差异。在7nm时代,三星foundry以更激进的姿态,率先在多个叠层采用了euv(极紫外)光刻。台积电的7nm路线图中,至少n7与n7p工艺仍然没有采用euv,直到n7+才用上了4层euv光刻层。
台积电n7+工艺的情况比较特别。市面上选择了n7+的芯片似乎很少——知名的大概也就是kirin 990 5g版了(kirin 990 4g版用的是n7工艺)。而且n7+与n7/n7p并不兼容。
台积电n7后续的完整迭代自然就是n5了——节点数字也符合0.7倍步进的节奏。所以对台积电而言,5nm的确就是7nm的迭代工艺。
但三星这边可不一样。三星近些年的路线演进,开始走完整迭代时的大步子。比如在三星眼中,10nm到7nm属于节点的完整迭代,所以7lpp就相对激进地用上了euv。在7lpp往后,三星foundry路线图的完整迭代,下一代工艺应该是3nm(3gaa)。且7nm->3nm的工艺迭代,迈的大步在于晶体管结构从finfet,演进至gaafet(gate-all-around fet)或/和mbcfet,也就是传说中的纳米线和纳米片。
而5nm在三星眼中实则属于1/4代工艺,或者说5lpe属于7lpp工艺的同代加强,是向3nm工艺的过渡。三星的7nm与5nm的关系,更类似于其10nm与8nm的关系,如上图所示。三星7lpp工艺同代加强,还包括了6nm、5nm、4nm。
如此一来,台积电和三星(以及intel)未来的工艺迭代可能要进一步发生分歧。比如台积电预期中的3nm,至少前期并不打算采用gaa结构。当然,3nm就属于题外话了,而且虽然三星的3gaa工艺pdk前年就进入了alpha阶段,但其量产至少也要等到明年。
这种迭代节奏上的差异(以及双方7nm的起点差不多),导致了台积电在5nm节点上跨的步子,会明显比三星更大,或者说更先进。至于后续3nm如何,尚不得而知。所以n5与5lpe理论上是两家公司的两个不同产品,而不应将其理解为某个固定标准下,双方各自交出的答卷。
两种5nm工艺的晶体管密度
鉴于篇幅关系,本文就不再科普finfet晶体管结构,以及fin pitch、gate pitch、cpp、不同金属层的基本概念了。对这些内容感兴趣的同学,可阅读《为什么说intel的10nm工艺比别家7nm更先进?(上)》,里面有比较详细的科普。
下面这两张图表给出的数据分别来自scotten jones(ic knowledge,via semiwiki)和david schor(wikichip fuse)。下图综合了三星、台积电已公开的信息,以及针对现有公开信息的一些分析。
来源:scotten jones, ic knowledge via semiwiki[1],发布于2019.5
来源:david schor, wikichip fuse[2],发布于2020.3
这其中值得一提的主要是晶体管密度(transistor density),此处ic knowledge预计台积电n5工艺的密度为173.1 mtr/mm²(百万晶体管每平方毫米,特指逻辑电路hd高密度单元库),wikichip fuse此前预估数字则为171.3 mtr/mm²[2]。
ic knowledge预计三星5lpe工艺的晶体管密度(uhd超高密度单元)126.5 mtr/mm²,wikichip则预估为126.89 mtr/mm²[3]。
台积电n5逻辑电路1.84倍晶体管密度提升,与同功耗水平下15%速度提升
虽然有区别,但量级上差不多,台积电n5还是比三星5lpe要高出不少的(scotten jones在2019年年末又更新过一次晶体管密度预估,似乎又大了不少[4])。无论如何,这一点也能看出台积电和三星的5nm虽然都叫5nm,但跨步幅度还是很不一样。
另外在cpp(contacted poly pitch,栅间距)、m2p(metal 2 pitch,金属间距)这样的晶体管关键数值上,大神们预估的值也有一些差异,ic knowledge标台积电n5工艺的cpp是50nm,wikichip则估算为48nm;而m2p,ic knowledge后来又将其更新到了28nm。这两张表格仅供参考——注意其发布时间也有差异。
事实上,三星5lpe与上一代7lpp相比,就单个晶体管的关键参数来看,各部分是几乎没有变化的,晶体管密度提升依靠的主要是单元库变化,以及各种scaling booster方法(比如sdb)。
台积电n5可不是这样。此处未详细列出n5相比n7的晶体管各部分关键参数变化。从wikichip提供的数据来看,cpp间距n7为57nm,n5则为48nm;mmp则从40nm缩减到了30nm[5]。这也进一步佐证了三星5lpe属于7lpp的同代加强或过渡,而台积电n5是n7的完整迭代。
骁龙888“翻车”都是5nm的锅吗?
很多人说高通被三星坑了,这话大抵上是站不住脚的,或者其功耗表现不佳并不只是三星的锅。芯片设计12-18个月周期,在前期定义配置时,选择的制造工艺就已经定下来了,如今设计与制造的紧密程度是相当之甚的——且当代工艺差异,也不大可能在芯片设计阶段中途突然就转到另一种工艺上。
高通骁龙888选择三星5lpe工艺,必然是有自己的考量的。高通也绝对不可能不知道,前文提到5lpe与n5工艺这些最基本的差异。至于高通的考量究竟是制造成本本身,还是设计ip的迁移便利性,就不得而知了。或许将来techinsights的深度拆解能探索一二。
此前的文章里提到过,这些晶体管密度数字只具有参考价值。一方面在于不同时代计算晶体管密度的方法是有差别的,这在《为什么说intel的10nm工艺比别家7nm更先进?(上)》一文中就已经详细提过了。而且一颗芯片上,晶体管并不是只有逻辑电路,更非仅采用hd高密度单元,晶体管也不是均匀分布。具体的仍要看芯片本身的设计。
在iedm上,台积电提到对于包含60%逻辑单元、30% sram,以及10%模拟i/o的移动soc而言,其5nm工艺能够缩减芯片35%-40%的尺寸——这样的值是更具参考价值的。
至于工艺迭代或增强,对性能、功耗产生的具体影响,厂商公布的数字恐怕是很难验证的。后文会提到三星5lpe通过引入6t uhd单元、减fin以减少单元高度的方式来实现晶体管密度33%的增加。它对性能带来的影响也很难考证,或者我们这些业外人士也无法搞清楚,这种方案究竟是好还是不好。
去年在上海举办的exynos芯片发布会上,三星有提到5lpe令芯片面积降低35%,功耗效率提升20%,性能表现提升10%。台积电则针对n5的功耗和性能数字提过,同功耗下速度提升15%,同性能下功耗降低30%。这些数字的意义可能都并不大,尤其在面对各种不同的ic设计时。
举个例子,骁龙888的cpu部分,大核心cortex-x1。cortex-x1是arm的greek家族cpu架构,它与当时一同公布的cortex-a78在设计理念上就有较大差异。通常移动cpu更看重低功耗,并且要在功耗、性能与面积(ppa)之间达成平衡,功耗与能耗比更是每年arm升级ip的重点。
但cortex-x1是打破了这种传统的。其设计指针更偏向性能,且在功耗、面积方面有一定妥协。x1架构有了明显拓宽,在a78设计基础上,再加包括前端5-wide解码宽度,renaming带宽最高每周期8 mop,neon加倍,l2、l3 cache加倍等。mop cache条目加倍,甚至比intel sunny cove(十代酷睿)还要大。
比较具有代表性的是re-order buffer(rob)增加到224条目,此前是160,以提升指令乱序与并行度。以前arm在这方面是一直偏保守的。arm以前曾提过,rob拓宽带来的性能提升,与芯片面积增加,两者关系不呈线性,而且还需要以功耗为代价。cortex-x1显然已经看破这些了。更多有关cortex-x1的架构拓宽,不是本文要探讨的重点。
虽然论架构宽度,cortex-x1的基础设计还是没法和苹果firestorm(m1与a14)比,但cortex-x1面向芯片制造商开始采用一种”cortex-x custom program”授权计划。这种授权方式下,客户可以对微架构做进一步定制,比如说要求更大的rob、改进的prefetcher等。我们不知骁龙888针对cortex-x1的具体实施,不过它以性能为更高优先级的设计,致骁龙888产生不对等的功耗,设计与ip也是重要因素。
arm在此前发布cortex-x1时大力宣传了其ipc及性能提升,但对功耗和面积效益语焉不详。anandtech猜测,x1面积和功耗都可能是a78的1.5倍;在预设功耗(power)下,x1核心的能效(energy efficiency,每焦耳的性能)会比a78糟糕23%[6]。
当然我们不能就此认定,骁龙888峰值性能下的功耗与能效比都是cortex-x1的问题,而且cortex-x1设计原则本身就是如此。骁龙888涉及到的问题可能覆盖了arm、高通、eda工具厂商,以及三星foundry。何况骁龙888 gpu部分的adreno 660针对上代改进(提频)也比较仓促。单纯说骁龙888的功耗问题需要三星5lpe工艺背锅,显然是不靠谱的。
至于很多人说5nm“集体翻车”,前文谈到了台积电n5工艺与三星5lpe差异较大,演进方向也不同。而将5nm一概而论,以骁龙888和麒麟9000为例来说“这一代工艺都不行”更是无稽之谈。在麒麟9000的gpu ip上,arm为mali g78设计,堆至多24个核心原本就相当令人困惑。
即便要说台积电n5工艺“翻车”,或者三星5lpe“翻车”,这两辆车“翻”的姿势和方向应该也有很大差异。
再提一提后续改进版工艺,三星方面自然就是4lpe了,而台积电则为n5p。4lpe的晶体管和大部分基本思路都与5lpe一致,不过金属互联间距有进一步的缩减;而台积电的n5p与n5有着相同的设计规则,完全的ip兼容性,同功耗下7%性能提升,同性能够下15%功耗降低。
三星5lpe与台积电n5详解(选读)
以下部分作为本文选读内容,仅针对感兴趣的读者。这部分内容只反映了台积电和三星公开的有关n5和5lpe的事实,无法作为直接比较的依据(因为三星和台积电公开的信息内容其实并不对称);另外也包含来自wikichip fuse、semiconductor digest的点评和设想;另外个人进行了少量信息补充,贻笑大方之处欢迎指正。其中的大部分内容是早就公开的信息。
(1)三星5lpe
有关三星5lpe工艺, exynos 1080剖析文章中已经有比较详细的介绍,这里做一些简单概括。
如前文所述,在晶体管尺寸方面,5lpe相比7lpp几乎没有变化,包括fin pitch、gate pitch、各层金属间距等。对于芯片设计方而言,7lpp到5lpe的设计ip可极大程度复用[8]。5lpe的几个改进重点包括:
引入一种新型的6t uhd(超高密度)单元库。6t uhd单元相比三星7nm hd单元缩减了一个fin。如此一来,整个单元高度就变小了,可实现面积缩减、密度提升。当然,为了防止性能下降,需要考虑做材料或结构加强,包括low-k spacer、dc等方面。具体细节不了解。
来源:arm techcon 2019[7]
6t uhd单元包括采用sdb(single diffusion break)、36nm的m2金属间距,cb on rx edge(rx是指单元的活跃区域,cb属于额外的本地互联层,在单元内横向布局,将接触层的触点连接到多晶硅本地互联——位于第一层金属层之下,也就是mol互联;所以cb on rx edge也就是cb互联层用到单元活跃区域边缘)。
uhd单元可实现33%的密度提升,不过这种单元库并不会应用于高性能需求的关键路径部分,毕竟高性能总是以牺牲密度为代价的。更稀疏的7.5t hd单元仍然是必要选择(似乎比7nm hd单元还要高),三星的数字是其性能提升11%。7.5t uhd单元之间并未采用sdb,而是mdb(pmos为sdb,nmos为ddb)。
另外5lpe工艺还引入一种低漏电的1-fin device(1个p fin,1个n fin),可提供至多20%的功耗节约。实际上,从这些改进也不难发现,5lpe的确主要是基于7lpp工艺的加强——虽然有关6t uhd单元的晶体管加强细节信息并不多。
(2)台积电n5
最后主要来说说台积电n5工艺。事实上,台积电公开n5工艺的细节也不多,前文提到有关n5晶体管的数字,都是大佬们自己依据经验给出的。台积电在iedm2019放出了比较多有关n5工艺的消息。
首先是euv光刻技术的采用,前文的表格中也提到了n5有14层euv光刻层——这比n7+就多了不少(先前的数据是n7+的euv光刻层为4层,n6可能是5层)。此前7nm介绍文章中提到过,像偏底部、间距比较小的金属层,在常规duv下就需要依靠saqp或者le3外加多个刻版掩模才能搞定。应用euv之后,所需掩模层就少了很多。台积电在paper中提到n5的euv层,替换了此前至少4倍的浸入层(immersion layer)——对比的可能是n7+。
可以从上图看到,euv掩模图案也更清晰,或者说有更高的保真度;减少掩模数量、提升保真度,本身也对生产时间成本、良率有帮助。当然三星5lpe所用的euv层从前文的图表看来,也并不少。
台积电n5相比n7,总体上就减少了掩模——而且似乎是工艺迭代历史上,首次减少了掩模数量(wikichip给出的数据是,14/16nm大约60层掩模,10nm则为78层,7nm为87层,5nm回到了81层;如果没有应用euv的话,wikichip预计n5需要115片掩模[2])。
n5迭代的第二个重点是晶体管的hmc(high mobility channel,高迁移沟道)。这项改进主要是为了提升驱动电流。上图有展示hmc与硅,两种沟道材料方案的驱动电流与漏电流关系比较,hmc有18%的性能优势。
其中右图展示的是,从fin顶端到底部,随沟道深度变化而产生的沟道应力变化。台积电没有给出hmc的更多信息。wikichip认为,hmc的本质是针对pmos采用sige(锗化硅)[2],semiconductor digest也在分析文章中做了类似的猜测[9]。
intel 10nm工艺介绍中的sdb,单元之间共享一个dummy gate,以节约空间
intel 10nm工艺介绍中的coag,mol与gate的接触点位置发生变化,以节约空间
在工艺迭代中,有一个词叫scaling booster。这个词描述的是在常规晶体管尺寸缩减技术之外的加强方案。比如说sdb、coag——这些在intel 10nm介绍文章的上篇中都有谈到过,intel在宣传中称其为hyperscaling。前文三星5lpe的某些尺寸缩减方案也能见到scaling booster,比如sdb。
台积电n5工艺的scaling booster方案主要包括了“unique diffusion termination”,国外这些分析机构普遍认为,这项技术的本质应该就是sdb[2][9],即单元之间共享一个dummy gate(如上图);另外,n5也采用了coag方案,即将gate contact直接放在晶体管active区域上方(如上图)——intel 10nm工艺也采用了这项技术。这两种技术更多的介绍,都可参见intel 10nm技术文章。
此外,n5的每个晶体管类型都有至多7种vt(阈值电压)选择,以此来满足不同的能效需求。其中有个新的elvt(extreme lvt,lvt是指low voltage threshold)晶体管,相比7nm能够实现15-25%的速度提升。
台积电还谈到一种3 fin的单元——面向hpc应用(此前规划中n5就有面向移动客户和hpc客户两种),有额外10%的性能优势,密度也会相对低一些。
beol金属互层的改进在于,间距最小的rc(接触电阻)与via电阻(通路电阻)相比n7工艺的增加并不大。台积电实现这一点靠的是euv,以及“innovative scaled barrier/liner, esl/elk dielectrics, and cu reflow”。
barrier和liner(阻隔层与衬垫)以及电介质(etch-stop layer, extreme low-k)在此前的文章里已经有过介绍,不过此处在表达上比较模糊,这里的铜reflow不清楚具体是什么工艺。不过电阻的控制,在互联延迟方面是有很大价值的。
sram部分,在n5工艺下,hc(高性能)单元面积0.025 μm²,hd(高密度)单元面积0.021 μm²。wikichip提到即便是其中的“高性能”单元,其密度也高于市面上已知的sram单元[2]。另外还有ulhd(超低漏电)单元有更高的能效,hshd高速单元则在面积方面有优势,可替代hc单元[10]。
下面这张图是ulhd、hd、hshd单元的电流与漏电流关系;以及hd sram的vin与vout对应曲线。
上面这张图则展示了n5工艺下的hd单元阵列作为l1 cache时(基于135mb测试芯片),0.85v能够达到4.1ghz的频率。
n5的其他改进还包括了面向高速io,pam-4 serdes在112gb/s速率下功耗0.78pj/bit,130gb/s功耗0.96pj/bit。金属互联上层mim(metal-insulator-metal)相比一般hd-mim高出4倍的电容密度,提升4.2% fmax等。[11]
更多有关台积电n5与三星5lpe工艺的内容,可参见参考来源中给出的这些链接以及iedm的paper,以上只简略地谈到了其中一部分。从这些资料也能大致上看出,如果将5nm作为一个统一的节点,则台积电n5显然有着更积极的部署,而三星5lpe则是个过渡工艺;后续4lpe与n5p的竞争也不会改变这一局面。但3nm的竞争可能又会大不一样了。


自动驾驶技术取得长足进步 未来出行将成8大趋势
你还傻傻的分不清LoRaWAN与LoRa吗?
苹果遭遇挑战:中国手机厂商在高端市场崛起
如何借助网关实现组态软件的摄像头视频监控?
迷你数控激光雕刻机DIY图解
台积电5nm与三星5nm的本质差异 三星5LPE与台积电N5详解
测量心率的两种主要方法介绍
库卡机器人编程之BAS程序
锤子T3最新消息:锤子T3全面屏空无望,老罗亲自爆料!锤子T3还有情怀吗?
腾讯医疗AI实验室推出辅助诊断帕金森病新技术,3分钟内可完成
中国联通的股权激励计划详细解读
品佳推出Liteon(光宝科技),LTR-5XX系列传感器模组用于智能手机的应用解决方案
无线压力传感器在油田中的应用
三星电子考虑花费超过100亿美元在美国建设其最先进的逻辑芯片制造厂
OCT成像技术有什么作用?
中国5G手机市场交上一份满意的答卷
三星被苹果惨踢出局,OLED屏幕后续由LG供应
基于ATT7022A芯片和atmega128单片机实现无功补偿控制系统设计
iPhone的好消息来了,苹果可以随便摔了!
磁珠和电感的区别是什么