CPU的基本组成和工作过程

cpu 按产品市场可分为 x86 系列和非 x86 系列。x86 系列 cpu 生产厂商只有 intel、amd、via 三家公司,x86 系列 cpu 在操作系统一级相互兼容,产品覆盖了 90%以上的桌面计算机市场。非 x86 系列 cpu 生产厂商有 ibm、sun、hp、arm、mips、日立、三星、现代、中国科学院计算研究所等企业和单位。非 x86 系列 cpu 主要用于大型服务器和嵌入式系统,这些产品大多互不兼容,在桌面计算机市场中占有份额极小。
intel 与 amd 公司的 cpu 虽然在性能和软件兼容性方面不相上下,但配套的硬件平台并不能相互完全兼容。例如,它们需要不同的主板进行产品配套。cpu制造工艺的逐步提升和硬件纠错是工艺步进提升的原因。通常来说,新步进的cpu超频能力更强,发热也会略低。如果两颗 cpu 型号相同,但工艺步进不同,从 cpu 超频角度看,cpu 升级步进工艺的同时,一般也会提高 cpu 的超频能力。
大部分 cpu 采用 lga 或 fc-pga 封装形式。fc-pga 封装是将 cpu 核心封装在基板上,这样可以缩短连线,并有利于散热。lga 采用无针脚触点封装形式。cpu 由半导体硅芯片、基板、针脚或无针脚触点、导热材料、金属外壳等部件组成。
(1)外壳(ihs)。cpu 金属外壳采用镀镍铜板,它的作用是保护 cpu 核心不受外力的损坏。外壳表面非常平整光滑,这有利于与 cpu 散热片的良好接触。
(2)导热材料(tim)。在金属外壳内部与复合陶瓷之间,填充了一层导热材料,导热材料一般采用导热膏,它具有良好的绝缘性和极佳的导热性能,它的功能是将 cpu 内核发出的热量传导到金属外壳上。
(3)cpu 核心(die)。cpu 核心是一个薄薄的硅晶片,尺寸一般为 12mm×12mm×1mm左右。目前 cpu 核心中有多个内核(2/4/6/8 个),8 内核的 intel xeon cpu 集成的晶体管数达到了 24 亿个。
(4)转接层。cpu 核心与基板之间有一个转接层,它的作用有三个:一是将非常细小的 cpu 内核信号线转接到 cpu 针脚上;二是保护脆弱的 cpu 核心不受损伤;三是将 cpu核心固定在基板上。转接层采用复合材料制造,有良好的绝缘性能和导热性能。在转接层上,采用光刻电路与 cpu 内核的电路直接相连。在转接层下面,采用焊点与基板上的线路相连。
(5)基板。金属封装壳周围是 cpu 基板,基板的功能一是连接转接层与 cpu 针脚,另外一个功能是设计一些电路,防止 cpu 内核的高频信号对主板产生干扰。
(6)电阻和电容。基板底部中间有的电容和电阻,主要用于消除 cpu 对外部电路的干扰,以及与主板电路进行阻抗匹配。每个系列的 cpu 产品,这些电容和电阻的排列方式都有所不同。
(7)针脚。基板下面的镀金无针脚触点,是 cpu 与外部电路连接的通道。
core i7 cpu 内核分为核心(core)与非核心(uncore)两大部分。核心部分包括 cpu执行流水线和 l1、l2 级高速缓存。非核心部分为 l3 级高速缓存、集成内存控制器(imc)、快速路径互连总线(qpi),以及功耗与时钟控制单元等。
cpu 工作过程大致如下:指令和数据在执行前,首先要加载到内存或 cpu 内核的高速缓存(l1/l2/l3 cache)中,这个过程称为缓存。cpu 根据指令指针(pc)寄存器指示的地址,从高速缓存或内存中获取指令;然后对分支指令进行预测工作,这个过程称为取指令(if)。
cpu取到指令后,需要判断这条指令是什么类型的指令,需要执行什么操作,并负责把取出的指令译码为微操作(μop)指令,这个过程称为译码(dec)。指令译码后可以得到操作码和操作数地址,然后根据地址取操作数。然后需要对多条微操作指令分配计算所需要的资源(如寄存器、加法器等),这个过程称为指令控制(icu)或指令分派。
当操作数被取出来以后,计算单元(如 alu)根据操作码的指示,就可以对操作数进行正确的计算了,指令的计算过程称为执行(exe)。执行结束后,计算结果被写回到 cpu内部的寄存器堆中,有时需要将计算结果写回到缓存和内存中,这个过程称为退出(retire)或写回。到此为止,一条指令的整个执行过程就完成了。
core i7 cpu 包括几十个系统单元。从体系结构层次看,cpu 的内部结构主要有缓存单元(cache)、取指单元(if)、译码单元(dec)、控制单元(icu)、执行单元(exe)、退出单元(ru)等。
core i7cpu 每个单核有 5 个 64 位整数算术逻辑运算单元(alu),3个 128 位的浮点处理单元(fpu)。cpu 中每个核心在最好的情况下,理论上每个时钟周期可以进行以下操作:取指令或数据 128 位/周期;译码 4 条 x86 指令(1 个复杂指令,3 个简单指令)/周期;发送 7 条微指令/周期;重排序和重命名 4 条微指令/周期;发送 6 条微指令到执行单元/周期;执行 5×64 位=320 位整数运算/周期;或执行 3×128 位=384 位浮点运算/周期;完成并退出 4 条微指令(128 位)/周期。cpu 在 3.2ghz 频率下的峰值浮点性能为 51gflops(双精度)或者 102gflops(单精度)。
cpu 访问存储系统时,在存储系统中找到所需数据的概率称为命中率,命中率计算方法如下所示,命中率越接近于 1 越好。
cpu 访问存储系统时,通常先访问 cache,由于 cpu 所需要的信息不会百分之百地在cache 中,这就存在一个命中率的问题。从理论上说,只要 cache 的大小与内存的大小保持适当比例,cache 的命中率是相当高的。对于没有命中的指令或数据,cpu 只好再次访问内存,这时 cpu 将会浪费更多的时间。
为了保证 cpu 访问 cache 时有较高的命中率,cache 中的内容一般按一定的算法进行替换。较常用的算法有“最近最少使用算法”(lru),它是将最近一段时间内最少被访问过的 cache 数据行淘汰出局。目前 cpu 高速缓存的命中率可达到 95%以上。


华为超融合数据中心网络解决方案的优势
TEC模块 TEC制冷片 ATE1-127
Power Integrations发布创新高压解决方案系列
2018年的宏观车市情况
摩托罗拉新机曝光 定位入门级
CPU的基本组成和工作过程
改善散热结构提升白光LED使用寿命
基于范德华隧道二极管的宽带微型光谱仪开发
一种采用FPGA/DSP的灵巧干扰平台设计与实现
普源精电RIGOL示波器电流探头PCA1150的测量步骤详解
科锐产品将面临25%关税,带来不成比例的经济伤害
高压探头定义及其使用注意事项
深度分析SSD主控市场
Intel第八代酷睿家族全面扩军:双核心双线程赛扬399元起
MEMS传感器技术助力制造业改善预测维护
CMOS图像传感器将服务于感知领域 激光雷达(LiDAR)的事件导向方法
大众速腾,马自达昂克赛拉这几款车绝对是省油高手!
数据的价值到底有多大?大数据特征是什么
采用数据集中器设计为智能电网提供电力线通信
基于深度学习的智能机器人导航和感知