科普NPU、TPU、IPU是什么？

各种pu（processing unit）的概念层出不穷，比较火热。今天我们来大致看看，这些x pu都是些什么？
什么是cpu？
中央处理器（central processing unit），是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。cpu是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速及实现它们缓冲处理器之间联系的数据、控制的总线。
电子计算机三大核心部件就是cpu、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据，也就是机器的“大脑”。在计算机体系结构中，cpu 是对计算机的所有硬件资源（如存储器、输入输出单元）进行控制调配、执行通用运算的核心硬件单元。cpu 是计算机的运算和控制核心。计算机系统中所有软件层的操作，最终都将通过指令集映射为cpu的操作。
cpu的结构主要包括运算器（alu, arithmetic and logic unit）、控制单元（cu, control unit）、寄存器（register）、高速缓存器（cache）和它们之间通讯的数据、控制及状态的总线。
架构如下图所示：
什么是gpu？
图形处理器（graphics processing unit），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。
gpu的构成相对简单，有数量众多的计算单元和超长的流水线，特别适合处理大量的类型统一的数据。但gpu无法单独工作，必须由cpu进行控制调用才能工作。
图像上的每一个像素点都有被处理的需要，而且每个像素点处理的过程和方式都十分相似，也就成了gpu的天然温床。gpu就是用很多简单的计算单元去完成大量的计算任务，也就是并行计算。
什么是tpu？
tpu（tensor processing unit），也就是张量处理单元，是一款为机器学习而定制的芯片，经过了专门深度机器学习方面的训练，它有更高效能。
如果说cpu，gpu是比较万能的工具，那么tpu就是专用工具。tpu就是谷歌专门为加速深层神经网络运算能力而研发的一款芯片，其实也是一款asic。
财大气粗的谷歌就是针对机器学习算法而专门制作了tpu，那么它的性能想来也是没得说。毕竟专业人做专业事，效率更高。
据说，tpu与同期的cpu和gpu相比，可以提供15-30倍的性能提升，以及30-80倍的效率（性能/瓦特）提升。
每一个操作需要更少的晶体管，用更多精密且大功率的机器学习模型，并快速应用这些模型，因此用户便能得到更正确的结果。这就是tpu。
什么是npu？
npu（neural network processing unit），也就是神经网络处理器。顾名思义，设计人员试图用电路模拟人类的神经元和突触结构。
在电路层模拟神经元，通过突触权重实现存储和计算一体化，一条指令完成一组神经元的处理，提高运行效率。主要应用于通信领域、大数据、图像处理。
嵌入式神经网络处理器（npu）采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。
npu处理器专门为物联网人工智能而设计，用于加速神经网络的运算，解决传统芯片在神经网络运算时效率低下的问题。
npu处理器包括了乘加、激活函数、二维数据运算、解压缩等模块。
乘加模块用于计算矩阵乘加、卷积、点乘等功能，npu内部有64个mac，snpu有32个。
激活函数模块采用最高12阶参数拟合的方式实现神经网络中的激活函数，npu内部有6个mac，snpu有3个。
二维数据运算模块用于实现对一个平面的运算，如降采样、平面数据拷贝等，npu内部有1个mac，snpu有1个。
解压缩模块用于对权重数据的解压。为了解决物联网设备中内存带宽小的特点，在npu编译器中会对神经网络中的权重进行压缩，在几乎不影响精度的情况下，可以实现6-10倍的压缩效果。
神经网络中存储和处理是一体化的，都是通过突触权重来体现。而冯·诺伊曼结构中，存储和处理是分离的，分别由存储器和运算器来实现，二者之间存在巨大的差异。因此专门针对人工智能的专业芯片在具体的应用领域比传统芯片更有性能等方面的优势。
什么是ipu？
传统意义上的ipu（image processing unit），图像处理单元，是图像识别soc的重要组成部分。
图像处理单元的目标是提供从图像输入（摄像头传感器 / 电视信号输入等）到显示设备（lcd显示屏 / tv输出 / 外部图像处理单元等）端到端的数据流信号处理的全面支持。
ipu库（ipu library）是基于ipu硬件的，它能实现以下功能：
1、调整大小。
2、旋转。
3、色彩空间 / 格式转换。
4、以同样大小的窗口，支持色键和α混合叠加组合。
5、在ipu处理后，直接输出显示到帧缓冲区。
6、两个输出处理来自一个输入。
7、窗口切割。
8、局部 α 混合。
在ipu处理内，ipu库采取三种操作缓冲区的方式：
1、输入缓冲区，包含需要处理的数据，用户可以自己分配或者由ipu库分配。
2、输出缓冲区，包含来自输入缓冲区已经处理完成的数据，用户可以自己分配
或者由ipu库分配；如果用户想将输出显示指向帧缓冲区，然后用户就不需要分配它们，帧缓冲区现在已经是输出缓冲区了。
3、覆盖缓冲区，包含要处理和组合的数据。
（注意：这三个缓冲区是连续的。）
对于ipu缓冲区有两种操作模式：
1、流模式，在ipu低级操作里将使用双缓冲区。
2、正常模式，在ipu低级操作里将使用单缓冲区。
tip：
以上提到的ipu是传统意义上的ipu，2021年8月英特尔发布了两款新的ipu（infrustracture processing unit），架构处理器，让各类网络服务运作过程可降低cpu资源占用比重。在定位上与英伟达提出的dpu（data processing unit）相类似。
哦对了，graphcore 此前也开发了一款ipu，智能处理单元（intelligence processing unit），用于改善ai性能，实现ai技术。
目前看来，或许x pu的前缀字母已经不够用了。当然，这也是各大厂商希望自己与其他家产品区分开的结果。我们真的需要这么多x pu吗？大浪淘沙，时间自然会给我们答案。
x pu大致一览
apu -- accelerated processing unit, 加速处理器，amd公司推出加速图像处理芯片产品。
bpu -- brain processing unit, 地平线公司主导的嵌入式处理器架构。
cpu -- central processing unit 中央处理器，目前pc core的主流产品。
dpu -- deep learning processing unit, 深度学习处理器，最早由国内深鉴科技提出；另说有dataflow processing unit 数据流处理器， wave computing 公司提出的ai架构；data storage processing unit，深圳大普微的智能固态硬盘处理器。
fpu -- floating processing unit 浮点计算单元，通用处理器中的浮点运算模块。
gpu -- graphics processing unit, 图形处理器，采用多线程simd架构，为图形处理而生。
hpu -- holographics processing unit 全息图像处理器，微软出品的全息计算芯片与设备。
ipu -- intelligence processing unit， deep mind投资的graphcore公司出品的ai处理器产品。
mpu/mcu -- microprocessor/micro controller unit，微处理器/微控制器，一般用于低计算应用的risc计算机体系架构产品，如arm-m系列处理器。
npu -- neural network processing unit，神经网络处理器，是基于神经网络算法与加速的新型处理器总称，如中科院计算所/寒武纪公司出品的diannao系列。
rpu -- radio processing unit, 无线电处理器， imagination technologies 公司推出的集合集wifi/蓝牙/fm/处理器为单片的处理器。
tpu -- tensor processing unit 张量处理器， google 公司推出的加速人工智能算法的专用处理器。目前一代tpu面向inference，二代面向训练。
vpu -- vector processing unit 矢量处理器，intel收购的movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。
wpu -- wearable processing unit，可穿戴处理器，ineda systems公司推出的可穿戴片上系统产品，包含gpu/mips cpu等ip。
xpu -- 百度与xilinx公司在2017年hotchips大会上发布的fpga智能云加速，含256核。
zpu -- zylin processing unit, 由挪威zylin 公司推出的一款32位开源处理器。

三菱XR号称合资性价比王者，悬浮式设计+混动四驱，仅售价12万
2017下半年即将发布的四款国产旗舰一加5、魅族pro7、小米mix2、小米note3，你期待谁？
RF射频电路为什么选取50欧姆作为阻抗匹配的数值呢？
意大利进口微生物快速检测仪的特点是什么
GPS的接口有哪些类型?
科普NPU、TPU、IPU是什么？
百度深度学习在人工智能运用的三个方向
精密电机“小巨人”华阳智能登陆创业板
应用RT8450设计一种LED灯具驱动方案
集成功放应用要点
科学家研发速度高于USB10倍的数据传输系统
数据锁DIY图解
VR重点在内容开发上物联网将持续发力
基于现场可编程门阵列技术和EDA技术实现IP核的设计方案
房价那么高，3D打印别墅何时样品变商品？
无线供电技术现状：知名大厂迷失了方向？
打响“上海制造”品牌、擦亮“上海制造”名片
开关电源中的整流电路有什么用处？三相桥式整流电路的工作原理及其意义
碳化硅技术壁垒是什么？碳化硅技术壁垒有哪些？
IHS Markit发布中国智能网联市场发展趋势报告