移动处理器发展新方向，整合更多的GPU将成为主流？

高阶行动装置对多媒体等视觉体验的要求愈来愈高，促使行动处理器开发商大举整合更多gpu核心，期借助平行运算能力，分散cpu运算负担，进而强化绘图与视觉表现。
在全球消费性市场中，智慧手机与平板装置无疑是最热门的产品，根据顾能（gartner）所发布的最新预测指出，2013年手机出货量将超过十八亿支，较2012年成长3.7%；平板的出货量将上看一亿八千四百万台，成长42.7%，呈现高速增长态势。
尤其值得关注的是高阶行动装置产品更不断推陈出新，给用户的视觉性应用体验已接近个人电脑（pc）、电视等级，即可提供丰富、流畅的二维（2d）或三维（3d）使用者绘图介面（gui）、视网膜（retina）级的高画质、快速的网页呈现及摄影功能，以及更逼真的3d游戏等。
在一台小小的行动装置上要达到这些使用体验，对于开发者而言，设计门槛已愈来愈高。以3d游戏为例，要让行动装置达到与pc、电视同级的游戏体验，须提升的视觉效果包括实体表现、动态照明、高动态范围材质（hdr texture）、先进阴影效果、几何细节、次表面散射（subsurface scattering），以及动态反射（dynamic reflection）等。
所幸，最关键的行动处理器架构不断升级，除出现整合中央处理器（cpu）和绘图处理器（gpu）的异质多核心架构外，gpu的数量及处理能力也大幅提升，成为实现流畅、长时效视觉体验的最大功臣。以下将剖析先进gpu在架构上的变化与最新进展。
实现更酷炫绘图功能　异质多核心soc势不可当
愈来愈多中高阶行动装置配置四核心cpu的行动处理器，以辉达（nvidia）的tegra系列来说，自tegra 3开始，就已进入4+1的多核心架构，即四颗效能核心加一颗省电核心，而最新一代的tegra 4，同样采用4+1的多核心架构，但处理器核心从前代的cortex-a9提升为cortex-a15；至于tegra 4i则仍采用cortex-a9（r4）cpu。
虽然cpu的数目愈多，意味着处理效能也跟着提升，但因cpu的序列处理特性，愈多核心意味着应用程式撰写亦愈困难；相较之下，由于gpu具备平行处理特性，能以近线性化来扩充效能，因此增加gpu数目所提升的效益，会比cpu显著许多。
在此情况下，整合cpu与gpu的异质多核心架构，就成了必然之势。而当gpu核心更多，也让开发者有更大空间和弹性去做出更酷的绘图效果、更细腻的细节表现及更生动的情境塑造，让行动视觉与游戏的体验大幅提升。
tegra 4的gpu子系统就是很好的例子，它从前代的十二颗geforce gpu核心，一举提高到七十二颗，六倍的核心数也带来六倍于tegra 3的绘图效能。tegra 4及tegra 3在gpu效能表现上的差异，请参考表1。在系统配置上，其架构中有所谓的顶点着色器（vertex shader）和画素着色器（pixel shader）；前者让工程师可自订场景（scene）中顶点的转换过程，后者则是用来控制画面上每个画素的着色计算。
更进一步来看，tegra 4的作法是将七十二颗geforce核心拆分为二十四颗vertex shader与四十八颗pixel shader。其中每四颗vertex shader组成一组顶点处理引擎（vertex processing engine， vpe），所以有六颗vpe，分别具有16kb、96-entry快取记忆体，能够有效降低向外部晶片存取资料的需求。在相同时脉下，新的geforce核心可以带来1.5倍于tegra 3的效能，而前后代vertex shader数量相差六倍，相乘之下差距达九倍之多。此外，tegar 4总共具有四组画素管线（pixel fragment shader pipeline），每组画素管线可细分为三组算术逻辑单元（alu），每个alu则是由四颗geforce核心（即pixel shader）组成。在实际运作时，会以alu做为最小层级的单元，并称为多功能处理单元（multi-function unit， mfu），因此tegar 4总共具有十二组mfu，mfu可执行函数、三角函数、对数、倒数、平方根及mov等指令（组合语言中的复制）（图1、2）。
图1 tegra4的逻辑性绘图处理管线流程图
图2 tegra 4的gpu架构方块图
降低多核心soc耗电量　架构设计担当重任
对于行动装置而言，电池的使用寿命与效能/功能表现占有同样重要的地位。同样是四核心行动晶片，因个别架构不同，往往也有不同的效能与功耗表现。以tegra 4来说，除采用安谋国际（arm）最先进的cpu核心外，透过可变对称式多重处理（vsmp）架构，可依照使用需求进行调配，让四颗效能核心发挥最大处理能力，并可视工作量，分别自动启用及停用各颗核心，以大幅节省电力。
为了提升续航力，tegra 4延续tegra 3的省电概念，在晶片中加入第五颗处理器核心，不过名称从协同核心（companion core）改为省电核心（battery saver core）。当装置处于背景处理邮件、社交软体同步，或是播放影片、音乐等低效能需求情境时，系统将关闭效能核心，并使用省电核心负责执行程式。
就晶片设计观之，多核心处理器必定会面临记忆体频宽和整体系统功率的重大瓶颈，为了因应此议题，tegra 4提出双通道（2x32位元）的记忆体子系统作法。此外，为减少对晶片外记忆体的存取使用需求，tegra 4的gpu架构中规画顶点、画素、材质（texture）专用的快取记忆体，让运算任务尽量在晶片内部完成，以提升处理效益和降低功耗。
另一个降低系统单晶片（soc）功耗的重要策略，就是采用先进的电源管理技术。以tegra 4来说，即采用多层级时脉闸控（multiple levels of clock gating）、显示要求群组（display request groupig）、动态电压与频率调节（dvfs）等多种电源管理技术，针对不同使用情境将电源需求降至最低。
运算型摄影架构助力　行动装置影像效能升级
再从应用端来看gpu架构的发展，今日的使用者非常仰赖行动装置来进行照相和和录影功能，且希望达到专业级的效果。不过，相较于相机，手机或平板装置在先天性上就难以配置太大的镜头，这时想得到高品质的影像，就得靠更先进的影像处理技术，甚至是运用电脑演算法来创造影像。
为了提升消费型行动影像体验，真正捕捉到「稍纵即逝」的瞬间画面，tegra 4内建chimera运算型摄影架构，它融合cpu、gpu及影像讯号处理器（isp）的处理能力，让装置制造商得以大幅强化行动影像。在此架构下，行动装置能够即时撷取高品质的always-on高动态范围照片和影片、高动态范围全景摄影和持续的点触追踪（tap-to-track）等功能。
以高动态范围全景摄影来说，其中运用广角或「鱼眼」镜头的效果，通常是只在昂贵的数位单眼相机才具备的功能。chimera架构让相机在移动时即可撷取场景，毋须依循特定的方位进行扫描，并可任意从左右、上下或对角线等方向移动，让使用者可随心所欲运用更多角度和任何顺序的影像，即时「描绘」一张全景相片。持续型tap-to-track技术则让使用者能在拍照时，针对场景中的一个人物或物件进行自动曝光和锁定，随后无论对焦主体移动位置，或者相机调整到另一个更好的拍摄角度，相机都会自动追踪原先已锁定的主体。持续型的tap-to-track功能也能随着相机移动调整曝光，避免影像主体或背景有曝光不足或过度曝光的现象。
更进一步来看，chimera架构能为人所不能的原因，凭藉的是其影像处理的速度高达每秒执行约一千亿次的数学运算。同时，它导入了许多先进演算法，包括运用x光电脑断层扫描（ct）器、深度太空望远镜和间谍卫星所使用的电脑运算技术，进而排除从前无法解决的问题，让行动影像的呈现效果就像人类肉眼看到的世界一样，有很多不同的景物、地点和场景，并富含各种的光线变化。
异质多核心soc扩张应用版图
异质多核心的soc架构的优势明显，加上由行动市场所驱动的技术演进日渐成熟，使得更多嵌入式应用也开始选择导入这类的行动处理器，其中一个快速成长的市场，即是车用电子领域，特别是车内资讯娱乐（ivi）系统、数位仪表板、驾驶支援等应用，皆仰赖更强大的gpu/cpu来加以支援。
以ivi系统来说，须要提供逼真的3d地图和地形、时髦流畅的使用者介面，以及功能丰富的音讯系统。透过在行动应用已证实可行的tegra行动处理器，汽车制造商可以更快将这些功能整合至车辆当中。在视觉处理方面，辉达即特别为车商开发出基于tegra行动处理器的视觉运算模组（visual computing module， vcm）。
相较于更新周期较长的其他车载电子系统，汽车用户期待自己的ivi系统和行动应用有相似的体验。透过这套vcm模组式设计，车商就能将快速发展的行动处理器技术独立出来开发与整合，进而能在不同的车款中快速建置ivi车载系统，此举也有助于大幅节省开发时间和成本。
举例来说，知名汽车品牌商奥迪（audi）即导入vcm并推出具连网功能的audi mib系统，让audi connect平台可随时完整更新google地球影像和google地图街景服务的360度全景图。它同时也能实现其他网路资料的传输，如即时汽油价、天气预测及google本地搜寻的有用资讯。
挑选cpu与gpu　软体开发支援/开发工具成指标
除了先进的硬体功能外，软体开发的支援及开发工具也是开发者选择gpu/cpu的关键。如前所述，tegra系列的弹性化架构，让开发者能运用客制化的演算法来调整gpu架构，进而得到更突出的视觉效果。不仅如此，在tegra开发人员工具（tegra android developer pack）中支持包括cpu采样分析（tegra profiler）和gpu分析（perfhud es）等功能，nsight tegra则提供android本地端的开发环境，让开发者能更方便且快速的达成工作目标。
在更高的gpu绘图效能带动下，可以预见行动或车载装置将能享有更佳的视觉体验。另一个值得关注的发展，则是未来透过浏览器实现3d场景、高画质显示及快速反应游戏的需求将会浮现，背后驱动的力量则来自html5及webgl等技术的发展。
事实上，html5已能支援gpu的应用，愈来愈多浏览器也开始运用gpu来加速其视觉表现。在跨装置、跨平台的网站上提供强大视觉内容的时代即将来临，这将会带来很大的商机，当然，挑战也不小呢！

安立宣布2G到4G/LTE/MIMO 的OTA测试解决方案
抑制电磁干扰（EMI）的实用电路技术
三星推出1.0μm像素技术的16MP CMOS图像传感器
立体视觉医疗辅助方案采用无人机的方式进行检查
简谈FPGA中系统运行频率计算方法与组合逻辑的层级
移动处理器发展新方向，整合更多的GPU将成为主流？
如何正确比较JavaScript中的对象
什么是PROFIBUS总线简介及应用
为什么机器人可以取代财务分析师？
变频器给定方式中的特殊功能
全方面解读广本缤智底盘
LT3088 宽安全工作区电源线性稳压器，1.5Vout @ 800mA
车载硬盘播放机
韩国研发出的新材料或将能打破Idemitsu Kosan和SFC的寡头结构
台湾多家连接器厂落户徐州
MAX64180 高清摄像机SoC
如何对GPU中的矩阵乘法（GEMM）进行优化
补课18年,把“不可能”变为现实的龙芯团队
亿图AI助手，你的职场咨询顾问
三维尺寸测量常用的设备有哪些