什么是张量处理单元（TPU）

介绍
张量处理单元( tensor processing unit, tpu ) 是谷歌专门为神经网络机器学习开发的人工智能加速器专用集成电路(asic) ，特别是使用谷歌自己的tensorflow软件。谷歌于 2015 年开始在内部使用 tpu，并于 2018 年将它们作为其云基础设施的一部分并通过提供较小版本的芯片出售给第三方使用。
张量处理单元于 2016 年 5 月在google i/o上宣布:当时该公司表示 tpu 已经在其数据中心内使用了一年多。该芯片专为 google 的tensorflow框架设计，用于神经网络等机器学习应用。
与图形处理单元相比，它设计用于大量低精度计算（例如低至8 位精度），每焦耳有更多的输入/输出操作，无需用于光栅化/纹理映射的硬件。根据norman jouppi的说法， tpu asic安装在散热器组件中，该组件可以安装在数据中心机架内的硬盘驱动器插槽中。不同类型的处理器适合不同类型的机器学习模型，tpu 非常适合cnn而 gpu 对一些全连接的神经网络有长处，而 cpu 对rnn有长处。
经过几年的发展，tpu已经发布了四个版本，下面是其发展历程：
详细介绍：
接下来介绍一些tpu项目。
tinytpu
❝
https://github.com/jofrfu/tinytpu
该项目的目的是创建一个与谷歌的张量处理单元具有相似架构的机器学习协处理器。该实现的资源可定制，可以以不同的尺寸使用以适应每种类型的 fpga。这允许在嵌入式系统和物联网设备中部署该协处理器，但也可以扩大规模以用于数据中心和高性能机器。axi 接口允许以多种组合方式使用。对 xilinx zynq 7020 soc 进行了评估。下面的链接中是使用vivado进行使用的一个demo：
❝
https://github.com/jofrfu/tinytpu/blob/master/getting_started.pdf
同时，该项目也是一片论文的验证项目，论文地址：
❝
https://reposit.haw-hamburg.de/bitstream/20.500.12738/8527/1/thesis.pdf
性能
使用 mnist 数据集训练的样本模型在不同大小的 mxu 上进行了评估，频率为 177.77 mhz，理论性能高达 72.18 gops。然后将实际时序测量与传统处理器进行比较：
177.77 mhz 的张量处理单元：
matrix width n 6 8 10 12 14
instruction count 431 326 261 216 186
duration in us (n input vectors) 383 289 234 194 165
duration per input vector in us 63 36 23 16 11
下面是其他处理器的对比结果：
processor intel core i5-5287u at 2.9 ghz bcm2837 4x arm cortex-a53 at 1.2 ghz
duration per input vector in us 62 763
free-tpu
❝
https://github.com/embedeep/free-tpu
编译好的bootbin，因为tpu和引脚没关联，所以可以直接进行使用验证。
❝
https://github.com/embedeep/free-tpu-os
描述
free tpu是用于深度学习 edge 推理的商业 tpu 设计的免费版本，可以部署在任何 fpga 设备上，包括 xilinx zynq-7020 或 kintex7-160t（这两个都是生产的好选择）。实际上，不仅是 tpu 逻辑设计， free tpu还包括支持所有 caffe 层的 eep 加速框架，可以在任何 cpu 上运行（如 zynq-7020 的 arm a9 或 intel/amd）。tpu 和 cpu 在深度学习推理框架的计划下相互协作（任何交替顺序）。
系统结构
对比
在用户看来，free-tpu和eep-tpu功能相同，但推理时间不同。
这是一个极其完整的项目，关于怎么运行，怎么调用都有很详细的步骤，这里就不再赘述了，更多详情，请访问:
❝
https://www.embedeep.com
simpletpu
❝
https://github.com/cea-wind/simpletpu
张量处理单元旨在加速矩阵乘法，特别是对于多层感知器和卷积神经网络。
此实现主要遵循 google tpu version 1，该架构在
❝
https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf
中有介绍。
主要特点
simple tpu 的主要特性包括
int8 乘法和 int32 累加器
基于 vliw 的并行指令
基于向量架构的数据并行
以下是 simple tpu 可以支持的一些操作。
资源占用情况
虽然该工程比较完整，后续也有demo演示，但是该工程使用hls制作的，详细信息可以查看下面的网址
❝
https://www.cnblogs.com/sea-wind/p/10993958.html
tiny-tpu
❝
https://github.com/cameronshinn/tiny-tpu
谷歌的tpu架构：
tiny tpu是基于 fpga 的 google张量处理单元的小规模实现。该项目的目标是了解加速器设计从硬件到软件的端到端技术，同时破译谷歌专有技术的低层次复杂性。在此过程中，我们探索了小规模、低功耗 tpu 的可能性。
该项目在 quartus 15.0 上综合并编程到 altera de1-soc fpga 上。
更多详细信息：
❝
https://github.com/cameronshinn/tiny-tpu/blob/master/docs/report/report.pdf
tpu-tensor-processing-unit
❝
https://github.com/leo47007/tpu-tensor-processing-unit
介绍
在有两个矩阵需要做矩阵乘法的场景下，矩阵a（选择权重矩阵）与矩阵b（选择矩阵）相，每一个一个都是 32x32。最后他们开始做每个矩阵的乘法，每个矩阵的因素将首先转换成一个顺序输入 tpu 中，输入其特定的矩阵，然后再将这些单元最多向连接的方向输入。在下一个周期中，每个单元将其权重和数据方向赋予下一个格。从左到右。
因为这个项目有中文的详细介绍，所以就不过多赘述了。
❝
https://zhuanlan.zhihu.com/p/26522315
systolic-array-implementation-in-rtl-for-tpu
❝
https://github.com/abdelazeem201/systolic-array-implementation-in-rtl-for-tpu
如下图所示，在有两个矩阵需要做矩阵乘法的场景下，矩阵a（命名权重矩阵）与矩阵b（命名数据矩阵）相乘，每个矩阵为8x8。一旦他们开始做矩阵乘法，两个矩阵的这些系数将首先转换成一个顺序输入到 tpu 中，然后输入到每个特定的队列中。然后这些队列将最多向其连接的单元输出 8 个数据，这些单元将根据它接收到的权重和数据进行乘法和加法。并且在下一个周期中，每个单元格将其权重和数据转发给下一个单元格。权重从上到下，数据从左到右。
该项目虽然完成了相关的目的，但是只是完成了相关工作，实际使用时需要进行一些优化。
super_small_toy_tpu
❝
https://github.com/dldldlfma/super_small_toy_tpu
如果说上面几个tpu比较复杂，那么这个就可以用“精简”来形容了。
整个代码非常精简，适合入门想研究tpu的人。
aic2021-tpu
❝
https://github.com/charley871103/tpu
❝
https://github.com/oscarkai9139/aic2021-tpu
❝
https://github.com/hsiehong/tpu
这个项目是aic2021-tpu，类似的项目有很多，都是理论研究的项目，和上面的项目一样都是非常非常适合入门研究的人员，里面的理论都是极其详细的。
systolic-array
❝
https://github.com/dazhuzhu-github/systolic-array
verilog实现tpu中的脉动阵列计算卷积的module
data为实验数据
source为源码
testbench 测试各个模块用的testbench
data-preprocessing 原本是要写将卷积操作用python预先imtocol操作的，但后来直接使用matlab生成数据进行测试了
tpu_v2
❝
https://github.com/ut-lca/tpu_v2
项目没有多余的介绍，整个项目是基于altera-de3设计，eda工具是quartus ii。
google-coral-baseboard
❝
https://github.com/antmicro/google-coral-baseboard
nxp i.mx8x 和 google 的 edge tpu ml 推理 asic（也可作为coral edge tpu 开发板的一部分）的基板的开放硬件设计文件。该板提供标准 i/o 接口，并允许用户通过统一的柔性扁平电缆 (ffc) 连接器与两个兼容 mipi csi-2 的视频设备连接。
pcb 项目文件是在 altium designer 14.1 中准备的。
该项目是一个硬件方案，谷歌coral edge tpu的硬件验证方案。
neural-engine
❝
https://github.com/hollance/neural-engine
大多数新的 iphone 和 ipad 都有神经引擎，这是一种特殊的处理器，可以让机器学习模型变得非常快，但对于这种处理器的实际工作原理，公众知之甚少。
apple 神经引擎（或 ane）是npu的一种，代表神经处理单元。它就像 gpu，但 npu 不是加速图形，而是加速卷积和矩阵乘法等神经网络操作。
ane 并不是唯一的 npu——除了 apple 之外，许多公司都在开发自己的 ai 加速器芯片。除了神经引擎，最著名的 npu 是谷歌的 tpu（或 tensor processing unit）。
这个项目并不是一个实现tpu的项目，但是是一个关于apple 神经引擎（或 ane）介绍及相关文档的集合的项目。
总结
今天介绍了几个tpu的项目，因为在国内tpu可能很多人都没有听说过，所以接下来我会出几篇文章介绍一下。同时这些项目前面几个非常完整，完全可以优化后进行商业推广（注意开源协议），最后几个项目是一些补充的知识，想要了解相关的知识的朋友可以查看一下。
最后，还是感谢各个大佬开源的项目，让我们受益匪浅。后面有什么感兴趣方面的项目，大家可以在后台留言或者加微信留言，今天就到这，我是爆肝的碎碎思，期待下期文章与你相见。

SDG3背后的科研面孔Nistara Randhawa在用技术讲述人与自然的故事
特斯拉正在为即将消失的方向盘做好准备工作
东芝2107年度发展战略目标，全线发力企业级存储市场
兆易创新荣获2023全球电子成就奖“年度微控制器”大奖
全球领先“量子计算”正式发布
什么是张量处理单元（TPU）
直流转换无电感器-DC/DC Conversion with
国际15号卫星参数表
三星电子和SK海力士暂停向华为供货
人民日报点评：扫码点餐是可选项不应是唯一选择
战胜轻视走出阴影梅西用实力开启球王之路
形式验证简介
有关自动驾驶汽车硬件系统的内容
基于MSP430和压电传感器设计的人体心率检测系统
数字信号与模拟信号的优缺点简述
科研人员将人工智能与大健康相结合小小粒子使得蚕丝拥有超凡功能
基于GaN的高功率稳压输出电源方案
LM4702功放模块的应用及设计方案
一文了解电子显微镜和光学显微镜的差异
开关电源中的基本元件整流器