M1 GPU性能:集成王者,独立CPU的竞争对手

上周,苹果公司发布了基于他们新apple silicon m1 soc芯片打造新mac产品,这个新闻在行业内引起了轰动,因为这标志着苹果正式开启了从intel的x86 cpu过渡到该公司自己基于arm架构设计的内部产品的两年计划第一步。
在发布会期间,我们根据该公司已经发布的apple a14芯片(在新一代iphone 12手机中使用)撰写了一篇详尽的文章,当中包括对apple的新firestorm内核的微体系结构的深入研究,这些内核同时为a14和新的apple silicon m1提供动力,如果您还没有机会看的话,我建议您阅读 《深度解读苹果m1芯片》 。
几天以来,我们已经能够接触到首批apple silicon m1设备之一:全新的mac mini 2020版本。在上周的分析文章中,我们基于a14得出了数字,而这次,我们根据实际的新高功率设计测量了实际性能。我们没有很多时间,但是我们将为您带来与新的apple silicon m1相关的关键数据点。
apple silicon m1:firestorm内核的3.2ghz和约20-24w tdp?
在apple的演示文稿中,缺少芯片时钟频率的实际细节以及可以保持最高性能的tdp是他们的一贯风格。
但我们可以确认,在单线程工作负载中,apple的firestorm内核现在的时钟频率为3.2ghz,比apple a14的3ghz频率提高了6.66%。只要有散热空间,此时钟也适用于所有内核负载,除了4个3.2ghz性能内核以外,我们在2064mhz处还可以看到4个thunde效率内核,这也比a14上的1823mhz高出很多。
除了四个高性能的firestorm核心之外,m1还包括四个icestorm核心,旨在降低闲置功率并提高电池供电情境下的电源效率。4个性能内核和4个效率内核都可以同时激活,这意味着这是8内核soc,尽管所有内核的性能吞吐量并不相同。
发布会期间最大的问题是这些设计的功耗。苹果已经提供了包括性能和功率轴在内的几张图表,但是我们缺乏比较数据来得出正确的结论。
由于我们可以使用mac mini而不是macbook,因此这意味着设备上的功率测量非常简单,因为我们只需将仪表连接到设备的ac输入即可。值得一提的是,由于我们在这里测量的是交流电源,因此功率数字不能直接与电池供电的设备相提并论,因为mac mini的电源会带来比其他设备更大的效率损失。
尤其重要的是要记住,我们通常谈到的处理器中的tdp数实际上只是此处提供的数字的一个子集,因为除了soc,我们还在测量dram和电压调节开销,而这并不是包含在tdp数据中,也不包括笔记本电脑上的典型封装电源读数。
从空闲的mac mini处于默认状态开始,我们把打开电源后的设备看作空闲状态,在通过hdmi连接到2560p144显示器,wi-fi 6和鼠标和键盘,我们看到的设备总功率为4.2w。鉴于我们正在测量设备的交流电源,这在低负载下可能效率很低,这在很大程度上是有意义的,并且代表了一个很好的数字。
该闲置数据还用作后续测量的基准,在这些测量中我们计算“有功功率”(active power),这意味着我们通常采用的方法是测量总功率并减去闲置功率。
在3.2ghz firestorm内核上的平均单线程工作负载(例如gcc代码编译)期间,我们看到设备功率高达10.5w,有功功率约为6.3w。有功功率与我们对更高频率的firestorm内核的期望非常一致,并且对于apple和m1来说是极有希望的。
在工作量更大的dram上,从而在mac mini上的lpddr4x级128位16gb dram上造成更大的功率损失,我们看到有功功率高达10.5w。有了这些数据,新的m1可能会给人留下深刻的印象,并且其展示能力还不到高端英特尔移动cpu的三分之一。
在多线程方案中,电源高度依赖于工作负载。在cpu利用率不高的内存密集型工作负载中,我们看到有功功率为18w,平均工作负载约为22w,在计算繁重的工作负载中峰值约为27w。这些数字通常是您希望与其他平台的“ tdp”进行比较的数字,尽管要再次进行比较,您需要进一步减去一些在mac mini上测算的开销。最好的猜测是20至24w的范围。
最后,在gpu方面,我们看到gfxbench aztec high的功耗降低了17.3w。这将包含大量的dram功耗,因此apple gpu的功耗绝对是极低的功耗,并且远远小于cpu可以消耗的峰值功率。
存储差异
除了cpu和gpu上的其他内核外,m1与a14的主要区别还在于它运行在128位内存总线上,而不是在移动64位总线上。在8个16位内存通道和lpddr4x-4266级内存中,这意味着m1达到了68.25gb / s的内存带宽峰值。
在内存延迟方面,我们发现m1较之a14(预期的)减少了,在128mb完全随机测试深度(full random test depth)下测量为96ns,而在a14上为102ns。
还需要注意的是性能核心的12mb l2缓存,尽管在这里苹果似乎仍在对单个核心可使用的数量进行分区,因为我们仍然看到8mb之后的延迟有所增加。
m1还包含一个较大的slc缓存,芯片上的所有ip块都应可以访问该缓存,但我们不确定。不给过测试结果的确与a14相似,因此我们假设这是soc上类似的16mb缓存块,因为某些访问模式超出了a14的访问范围,这在一定程度上是合理的较大的l2。
我们从未真正有机会进行测试的一个方面就是,苹果的核心在内存带宽方面到底有多出色。在m1内部,结果是突破性的:一次firestorm可以实现高达58gb / s的内存读取速度,而内存写入速度则为33-36gb / s。最重要的是,根据您使用的是标量指令还是矢量指令,内存副本(memory copies)的传输速度可以高达60至62gb / s。单个firestorm内核几乎可以使内存控制器饱和的事实令人震惊,因为这是我们以前在设计中从未见过的。
因为一个内核几乎可以利用整个内存带宽,所以让多个内核同时访问事物实际上并不会增加系统带宽,但是实际上由于拥塞会降低有效实现的总带宽。当在内存副本(memory copies)中同时使用性能核心和效率核心时,我特别指出了这一点——4个大核心以59gb / s的内存副本(memory copies)达到峰值,但是一旦添加了效率核心,它就会降至49gb / s,当所有内核都处于活动状态时,速度可降至46gb / s,这表明系统中某处中存在瓶颈。
除了增加时钟速度,增加l2之外,这种内存提升还很有可能是m1区别于a14之外的另一个关键点,并让其有能力与现有的x86厂商的竞争。
基准测试
由于我们使用mac mini的时间很少,而且这不仅是一个macos系统,而且是一个新的基于arm64的macos系统,因此我们无法使用我们通常使用的基准测试。在发布时,我们已经进行了各种可用的测试,以使我们对性能有一个大致的了解:
cinebench是在macos和apple silicon上初露头角的一个特定基准。在基于cinema4d的首次基准测试中,我们看到苹果m1与市场上大部分的x86 cpu相比,拥有相当大的优势,但输给了zen3和tiger lake cpu,后者似乎仍然具有优势。
值得注意的是,在x86模式下,rosetta2基准测试的性能不仅能够跟上过去的mac,而且还能胜过它们。
在多线程r23运行中,m1版本mac具有绝对的领先优势。值得一提的是,我们正在尝试访问其他系统以收集更多数据,并希望进一步更新图表。
在浏览器基准测试中,apple的cpu占据了主导地位,但是人们怀疑这是由于iphone的cpu本身,还是仅归因于浏览器和浏览器引擎。现在可以在macos和桌面safari上运行,并且能够将数据与其他intel mac系统进行比较,我们可以得出这样的结论:性能优势归功于apple的cpu设计。
web浏览性能似乎是apple cpu的头等大事,这是有道理的,因为它是移动soc的杀手级工作量,也是日常生活中使用最多的工作量。
在geekbench 5中,m1再次表现出色,因为它实际上领先于我们的性能数据。即使在以x86兼容模式运行时,m1与上一代高端cpu的顶级单线程性能相比不相伯仲,并且大大超过了mac mini和macbook的先前版本。
多线程性能取决于设计的内核数和功耗效率。m1在这里输给了2017年的15英寸macbook pro,它使用的intel i7-7820hq具有4核和8线程,得分翻倍。在收集数据点时,我们将添加更多的数据点。
m1 gpu性能:集成王者,独立cpu的竞争对手
从intel切换到apple芯片上,重点主要应该放在cpu内核上,对此,我们有充分的理由,但m1在gpu方面的表示不容忽视。像他们的cpu内核一样,苹果已经开发了自己的gpu技术已有多年了,随着向apple silicon的转变,这些gpu设计也首次出现在mac上。从性能的角度来看,这带来的盖板边比苹果的cpu还要大。
苹果公司长期以来一直以要求gpu性能优于一般pc oem厂商而闻名。尽管许多英特尔合作伙伴都很乐意甚至在部分15英寸笔记本电脑中都配备了具有intel uhd图形和其他基准解决方案的系统,但苹果公司选择在其15英寸macbook pro中交付独立的gpu。而且,当他们无法在13英寸型号中安装独立gpu时,他们将intel的高级iris gpu配置与更大的gpu和片上edram缓存结合使用,从而成为这些功能更强大的芯片的唯一常规客户。
因此,一段时间以来,苹果一直希望获得比英特尔默认提供的更好的gpu性能。通过切换到自己的芯片,apple最终可以通过建立具有他们想要的所有gpu性能的笔记本电脑soc来赚钱。
同时,与向apple silicon过渡的cpu方面不同,图形编程的高级性质意味着apple几乎不依赖于开发人员,就可以立即准备通用应用程序以利用apple的gpu。可以肯定的是,原生的cpu代码仍将产生更好的结果,因为几乎没有人听说过纯粹受gpu限制的工作负载,但是现有的metal(甚至opengl)代码现在可以在apple的gpu上运行,这意味着它立即使所有游戏和其他受gpu约束的工作负载受益。
至于m1 soc的gpu,毫不奇怪,它看起来很像a14的gpu。但苹果对设计进行了一些调整,以适应mac的敏感性(例如,各种gpu纹理和表面格式),但总的来说,差异是在api级别上抽象出来的。
总体而言,随着m1达到a14但更大,apple已将其4核gpu设计从该soc扩展到了m1的8核。但与cpu时钟速度相比,我们对gpu时钟速度的了解甚至更少。
因此,目前尚不清楚苹果是否真的提高了这些速度;但是如果gpu时钟没有提高,我会感到有些惊讶。总体而言,按照智能手机标准,a14的4核gpu设计已经非常强大,因此8核设计就更是如此。m1的集成gpu不仅旨在超越amd和intel的集成gpu,他们甚至还瞄准了独立gpu。
最后,应该指出的是,apple为m1提供了两种不同的gpu配置。mac mini和macbook pro的芯片均启用了所有8个gpu内核。同时,对于macbook air,它取决于sku:入门级型号具有7核配置,而更高级别的型号具有8核。这意味着入门级air可获得最弱的gpu(比完整的m1落后约12%)。
让我们开始了解gpu性能,让我们从gfxbench 5.0开始。这也是我们笔记本电脑评测的常规基准之一,因此它为我们提供了一个很好的机会,将基于m1的mac mini与mac生态系统内外的各种其他cpu / gpu组合进行比较。
总体而言,这并不是一个完全公平的测试,因为mac mini是小型台式机,而不是笔记本电脑,但是由于m1是笔记本电脑专用芯片,因此至少可以使我们了解m1在达到最佳状态时的性能。
总体而言,m1的gpu在这里非常强大。在正常和高设置下,它都远远领先于其他集成gpu,甚至是独立的radeon rx 560x。只有到了nvidia的gtx 1650更强的gpu时,m1才渐落下风。
顺便说一句,我还通过rosetta自由运行了基准测试的x86版本,以了解性能损失。至少在gfxbenchaztec ruins中没有。gpu的性能与本机二进制文件和二进制转换几乎完全相同。
最后,我们以完全愚蠢的合成基准快速浏览了更广阔的领域,我们有了3dmark ice storm unlimited。由于apple silicon macs能够运行iphone / ipad应用程序,因此我们能够通过运行ios版本首次在mac上运行此基准测试。这是为opengl es 2.0时代建立的非常古老的基准,但有趣的是它的性能甚至比gfxbench好。mac mini的性能恰好足以滑过配备gtx 1650的笔记本电脑,尽管这不会经常发生,但它显示了m1的强大功能。
为苹果新mac的发布而更新的另一个gpu基准是basemark gpu。这不是我们的常规基准测试,因此我们手头上没有其他非mac笔记本电脑的分数,但是它使我们可以更进一步地了解m1与其他mac gpu产品的比较。
2020年的mac mini仍然领先宇2018年基于intel的mac mini,就此而言,它也比配备radeon pro 560的2017年macbook pro至少快50%。当然,较新的macbook pro会做得更好,但是请记住,这是一个集成的gpu,整个芯片比macbook pro的cpu消耗的功率更少,因此不必担心独立的gpu。
最后,将理论付诸实践,我们有了《rise of the tomb raider》。该游戏于2016年发布,具有适当的mac端口和内置基准,使我们能够在游戏场景中查看m1并将其与其他windows笔记本电脑进行比较。诚然,这款游戏的年龄稍大一些,但其性能要求与m1旨在提供的性能非常匹配。最后,应该指出的是,这是x86游戏,尚未移植到arm上,因此游戏的cpu端通过rosetta运行。
在我们的768p value设置下,mac mini在这里提供了超过60fps的速度。它再次大大领先于2018年基于intel的mac mini以及该堆栈中的所有其他集成gpu。即使是15英寸的mbp及其radeon pro 560仍然落后于mac mini 25%以上,ryzen笔记本电脑和radeon 560x最终要与mac mini保持一致。
同时,通过“发烧友”设置将事情提高到1080p时,发现基于m1的mac mini仍提供不到40fps的速度,并且比上述ryzen + 560x系统高出20%以上。这确实使mini远远落后于gtx 1650-rosetta和常规api效率低下可能起了一定作用-但它表明了击败apple集成gpu所需要的能力。mac mini以39.6fps的速度可以在1080p上以良好的图像质量设置进行播放,并且相当容易地降低分辨率或图像质量以使其恢复到60fps以上。全部在集成gpu上。
最终,这些基准测试非常有力地证明了m1的集成gpu将不辜负苹果公司在高性能gpu方面的声誉。苹果公司为mac推出的首个apple内置gpu的速度明显快于我们能够使用的任何集成gpu,并且无疑将为笔记本电脑的gpu性能树立新的高标准。
根据苹果自己的die照片,很明显,他们将m1模具的相当一部分用于gpu和相关的硬件上,其收益是可以与低端独立gpu媲美的gpu。鉴于m1只是未来的基线,苹果将需要更强大的gpu用于高端笔记本电脑和其余台式机,看到基线的gpu时苹果及其开发者生态系统可以做什么将非常有趣即使是最便宜的mac,其性能也很高。


你会在车上找到哪一些物联网技术
变电所运维云平台的简单介绍
5G时代的来临会使得WIFI消失吗
马斯克:正在研发视觉芯片 可帮助失明者重见光明
dfrobotMicroSD卡 读卡器模块简介
M1 GPU性能:集成王者,独立CPU的竞争对手
物联网技术是如何改善航空业的
辐射骚扰整改思路及方法:实地验证?
二极管在电路中的工作原理
常见的4线和6线步进电机接线
小米6或被爆了个精光,高通835处理器5.7寸2K屏双摄
简析电场辐射发射试验测试系统噪声计算
三星GalaxyNote7开箱实拍 附送USB Type-C接口转换器
6G网络什么时候上市?我国2029年左右开始引入6G 6G和5G有什么区别
部署物联网网络将要面临哪5个技术挑战?
380v变200v三相变压器内部原理
MT7628方案WiFi模块了解一下!
选择电源接地系统会直接影响EMC PCB设计
新能源汽车对功率半导体需求带动有多大?
奥比中光领跑中国服务机器人视觉感知赛道