学芯片技术的机会来了!斯坦福大学2018秋季学期推出《机器学习硬件加速器》课程,深入介绍机器学习系统中设计训练和推理加速器的架构技术。课程涵盖经典的ml算法,用于ml模型推理和训练的加速器设计等,超多专业材料和ppt,是本领域不可多得的专业课程。
本课程将深入介绍用于在机器学习系统中设计训练和推理加速器的架构技术。本课程将涵盖经典的ml算法,如线性回归和支持向量机,以及dnn模型,如卷积神经网络和递归神经网络。我们将考虑这些模型的训练和推理,并讨论诸如batch size、精度、稀疏度和压缩等参数对这些模型精度的影响。我们将介绍用于ml模型推理和训练的加速器设计。学生将熟悉使用并行性、局部性和低精度来实现ml中使用的核心计算内核的硬件实现技术。为了设计高效节能的加速器,学生们将建立直觉,在ml模型参数和硬件实现技术之间进行权衡。学生将阅读最近的研究论文并完成一个设计项目。
主讲教师:
kunle olukotun
kunle olukotun是斯坦福大学电气工程和计算机科学的cadence设计系统教授,自1991年以来一直在该系任教。olukotun以领导stanford hydra研究项目而著名,该项目开发了首批支持thread-level speculation的芯片多处理器。
ardavan pedram
ardavan pedram是斯坦福大学电气工程系研究助理,与kunle olukotun教师合作的pervasive prallelism laboratory (ppl)项目的成员。
特邀讲师:
boris ginsburg, nvidia
robert schreiber, cerebras systems
mikhail smelyanskiy, facebook
cliff young, google
课程安排和阅读材料
第1课:简介,摩尔定律和dennard scaling定律后硬件加速器的作用
阅读:暗硅(dark silicon)有用吗? hennessy patterson第7.1-7.2章
https://ieeexplore.ieee.org/document/6241647/
第2课:经典ml算法:回归、svm
阅读:tabla:基于统一模板的加速统计机器学习的架构
https://www.cc.gatech.edu/~hadi/doc/paper/2015-tr-tabla.pdf
第3课:线性代数基础和加速线性代数blas运算
20世纪的技术:收缩阵列和mimd,cgras
阅读:为什么选择收缩架构?
www.eecs.harvard.edu/~htk/publication/1982-kung-why-systolic-architecture.pdf
高性能gemm的剖析
https://www.cs.utexas.edu/users/pingali/cs378/2008sp/papers/gotopaper.pdf
第4课:评估性能、能效、并行性,局部性、内存层次,roofline模型
阅读:dark memory and accelerator-rich system optimization in the dark silicon era
https://arxiv.org/abs/1602.04183
第5课:真实世界的架构:将其付诸实践
加速gemm:定制,gpu,tpu1架构及其gemm性能
阅读:google tpu
https://arxiv.org/pdf/1704.04760.pdf
codesign tradeoffs
https://ieeexplore.ieee.org/document/6212466/
nvidia tesla v100
images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
第6课:神经网络:mlp和cnn推理
阅读:ieee proceeding
brooks’s book (selected chapters)
第7课:加速cnn的推理:实践中的阻塞(blocking)和并行(parallelism)
diannao, eyeriss, tpu1
阅读:一种阻塞卷积神经网络的系统方法
https://arxiv.org/abs/1606.04209
eyeriss:用于卷积神经网络的节能数据流的空间架构
https://people.csail.mit.edu/emer/papers/2016.06.isca.eyeriss_architecture.pdf
google tpu (see lecture 5)
第8课:使用spatial建模神经网络,分析性能和能量
阅读:spatial:一种应用程序加速器的语言和编译器
http://arsenalfc.stanford.edu/papers/spatial18.pdf
第9课:训练:sgd,反向传播,统计效率,batch size
阅读:去年的nips workshop:graphcore
https://supercomputersfordl2017.github.io/presentations/simonknowlesgraphcore.pdf
第10课:dnn的弹性:稀疏性和低精度网络
阅读:eie:压缩深度神经网络的高效推断机(efficient inference engine)
https://arxiv.org/pdf/1602.01528.pdf
flexpoint of nervana
https://arxiv.org/pdf/1711.02213.pdf
boris ginsburg:卷积网络的large batch训练
https://arxiv.org/abs/1708.03888
lstm block compression by baidu?
第11课:低精度训练
阅读:halp:high-accuracy low-precision training
https://arxiv.org/abs/1803.03383
ternary or binary networks
see boris ginsburg's work (lecture 10)
第12课:分布式和并行系统训练:hogwild!,异步和硬件效率
阅读:deep gradient compression
https://arxiv.org/abs/1712.01887
hogwild!:一种并行化随机梯度下降的lock-free 方法
https://people.eecs.berkeley.edu/~brecht/papers/hogwildtr.pdf
大规模分布式深度网络
https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf
第13课:fpga和cgras:catapult,brainwave, plasticine
catapult
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/cloud-scale-acceleration-architecture.pdf
brainwave
https://www.microsoft.com/en-us/research/uploads/prod/2018/03/mi0218_chung-2018mar25.pdf
plasticine
dawn.cs.stanford.edu/pubs/plasticine-isca2017.pdf
第14课:ml基准:dawnbench,mlperf
dawnbench
https://cs.stanford.edu/~matei/papers/2017/nips_sysml_dawnbench.pdf
mlperf
https://mlperf.org/
第15课:project presentations
更多阅读材料:https://cs217.github.io/readings
课程ppt:https://cs217.github.io/lecture_slides
第一课对深度学习的发展、摩尔定律、dennard scaling、相关理论方法等做了较为详尽的介绍,非常干货,下面附上第一课的ppt。
深度学习的挑战:深度学习存在理论吗?
国产万物互联主板,工控之外更有创新
2011年全球芯片营收2995亿美元
浅谈6G技术在军事实践变革上的新浪潮
根本停不下来的半导体并购,这四家大厂被点名
一项全新的VR/AR技术,其能够将AR的优势带给VR世界
斯坦福机器学习硬件加速器的课程学芯片技术机会来了
首款人工智能法律机器人重庆亮相 为市民提供免费咨询服务
iOS4耗电惊人,老版iPhone手机用户很无奈
电动汽车电池管理系统设计
华为携手中国移动荣获“2023年度云原生技术创新领航者-云原生技术创新案例”大奖
十家入局停车机器人领域的企业
推动IC设计革命的七大EDA技术工具
传感器助力智慧交通建设 让城市“血脉”通畅
小米5C为米家第一个亲儿子!就是不知道使用效果咋样
倒计时4天!宁波智能照明会议议程抢先看
数据中心机房建设的痛点:机房顶面防水的重要性
皖维高新:投建年产2千万平方米TFT偏光片用宽幅PVA光学薄膜项目
柔性振动盘解决传统振动盘难以解决的送料难题
红米5A在印度销量突破1000万台,成为印度智能手机市场的出货王
如何解决氢燃料汽车两大关键技术