辰东完美世界有声小说,遮天,天蚕土豆

學(xué)芯片技術(shù)的機(jī)會(huì)來了！斯坦福大學(xué)2018秋季學(xué)期推出《機(jī)器學(xué)習(xí)硬件加速器》課程，深入介紹機(jī)器學(xué)習(xí)系統(tǒng)中設(shè)計(jì)訓(xùn)練和推理加速器的架構(gòu)技術(shù)。課程涵蓋經(jīng)典的ML算法，用于ML模型推理和訓(xùn)練的加速器設(shè)計(jì)等，超多專業(yè)材料和PPT，是本領(lǐng)域不可多得的專業(yè)課程。

本課程將深入介紹用于在機(jī)器學(xué)習(xí)系統(tǒng)中設(shè)計(jì)訓(xùn)練和推理加速器的架構(gòu)技術(shù)。本課程將涵蓋經(jīng)典的ML算法，如線性回歸和支持向量機(jī)，以及DNN模型，如卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。我們將考慮這些模型的訓(xùn)練和推理，并討論諸如batch size、精度、稀疏度和壓縮等參數(shù)對(duì)這些模型精度的影響。我們將介紹用于ML模型推理和訓(xùn)練的加速器設(shè)計(jì)。學(xué)生將熟悉使用并行性、局部性和低精度來實(shí)現(xiàn)ML中使用的核心計(jì)算內(nèi)核的硬件實(shí)現(xiàn)技術(shù)。為了設(shè)計(jì)高效節(jié)能的加速器，學(xué)生們將建立直覺，在ML模型參數(shù)和硬件實(shí)現(xiàn)技術(shù)之間進(jìn)行權(quán)衡。學(xué)生將閱讀最近的研究論文并完成一個(gè)設(shè)計(jì)項(xiàng)目。

主講教師：

Kunle Olukotun

Kunle Olukotun是斯坦福大學(xué)電氣工程和計(jì)算機(jī)科學(xué)的Cadence設(shè)計(jì)系統(tǒng)教授，自1991年以來一直在該系任教。Olukotun以領(lǐng)導(dǎo)Stanford Hydra研究項(xiàng)目而著名，該項(xiàng)目開發(fā)了首批支持thread-level speculation的芯片多處理器。

Ardavan Pedram

Ardavan Pedram是斯坦福大學(xué)電氣工程系研究助理，與Kunle Olukotun教師合作的Pervasive Prallelism Laboratory (PPL)項(xiàng)目的成員。

特邀講師：

Boris Ginsburg, NVIDIA

Robert Schreiber, Cerebras Systems

Mikhail Smelyanskiy, Facebook

Cliff Young, Google

課程安排和閱讀材料

第1課：簡(jiǎn)介，摩爾定律和Dennard Scaling定律后硬件加速器的作用

閱讀：暗硅（Dark Silicon）有用嗎？ Hennessy Patte rson第7.1-7.2章

https://ieeexplore.ieee.org/document/6241647/

第2課：經(jīng)典ML算法：回歸、SVM

閱讀：TABLA：基于統(tǒng)一模板的加速統(tǒng)計(jì)機(jī)器學(xué)習(xí)的架構(gòu)

https://www.cc.gatech.edu/~hadi/doc/paper/2015-tr-tabla.pdf

第3課：線性代數(shù)基礎(chǔ)和加速線性代數(shù)BLAS運(yùn)算

20世紀(jì)的技術(shù)：收縮陣列和MIMD，CGRAs

閱讀：為什么選擇收縮架構(gòu)？

www.eecs.harvard.edu/~htk/publication/1982-kung-why-systolic-architecture.pdf

高性能GEMM的剖析

https://www.cs.utexas.edu/users/pingali/CS378/2008sp/papers/gotoPaper.pdf

第4課：評(píng)估性能、能效、并行性，局部性、內(nèi)存層次，Roofline模型

閱讀：Dark Memory and Accelerator-Rich System Optimization in the Dark Silicon Era

https://arxiv.org/abs/1602.04183

第5課：真實(shí)世界的架構(gòu)：將其付諸實(shí)踐

加速GEMM：定制，GPU，TPU1架構(gòu)及其GEMM性能

閱讀：Google TPU

https://arxiv.org/pdf/1704.04760.pdf

Codesign Tradeoffs

https://ieeexplore.ieee.org/document/6212466/

NVIDIA Tesla V100

images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf

第6課：神經(jīng)網(wǎng)絡(luò)：MLP和CNN推理

閱讀：IEEE proceeding

Brooks’s book (Selected Chapters)

第7課：加速CNN的推理：實(shí)踐中的阻塞（Blocking）和并行（Parallelism）

DianNao, Eyeriss, TPU1

閱讀：一種阻塞卷積神經(jīng)網(wǎng)絡(luò)的系統(tǒng)方法

https://arxiv.org/abs/1606.04209

Eyeriss：用于卷積神經(jīng)網(wǎng)絡(luò)的節(jié)能數(shù)據(jù)流的空間架構(gòu)

https://people.csail.mit.edu/emer/papers/2016.06.isca.eyeriss_architecture.pdf

Google TPU (see lecture 5)

第8課：使用Spatial建模神經(jīng)網(wǎng)絡(luò)，分析性能和能量

閱讀：Spatial：一種應(yīng)用程序加速器的語言和編譯器

http://arsenalfc.stanford.edu/papers/spatial18.pdf

第9課：訓(xùn)練：SGD，反向傳播，統(tǒng)計(jì)效率，batch size

閱讀：去年的NIPS workshop：Graphcore

https://supercomputersfordl2017.github.io/Presentations/SimonKnowlesGraphCore.pdf

第10課：DNN的彈性：稀疏性和低精度網(wǎng)絡(luò)

閱讀：EIE：壓縮深度神經(jīng)網(wǎng)絡(luò)的高效推斷機(jī)（Efficient Inference Engine）

https://arxiv.org/pdf/1602.01528.pdf

Flexpoint of Nervana

https://arxiv.org/pdf/1711.02213.pdf

Boris Ginsburg:卷積網(wǎng)絡(luò)的Large Batch訓(xùn)練

https://arxiv.org/abs/1708.03888

LSTM Block Compression by Baidu?

第11課：低精度訓(xùn)練

閱讀：HALP：High-Accuracy Low-Precision Training

https://arxiv.org/abs/1803.03383

Ternary or binary networks

See Boris Ginsburg's work (lecture 10)

第12課：分布式和并行系統(tǒng)訓(xùn)練：Hogwild！，異步和硬件效率

閱讀：Deep Gradient compression

https://arxiv.org/abs/1712.01887

Hogwild!：一種并行化隨機(jī)梯度下降的Lock-Free 方法

https://people.eecs.berkeley.edu/~brecht/papers/hogwildTR.pdf

大規(guī)模分布式深度網(wǎng)絡(luò)

https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf

第13課：FPGA和CGRAs：Catapult，Brainwave, Plasticine

Catapult

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/Cloud-Scale-Acceleration-Architecture.pdf

Brainwave

https://www.microsoft.com/en-us/research/uploads/prod/2018/03/mi0218_Chung-2018Mar25.pdf

Plasticine

dawn.cs.stanford.edu/pubs/plasticine-isca2017.pdf

第14課：ML基準(zhǔn)：DAWNbench，MLPerf

DawnBench

https://cs.stanford.edu/~matei/papers/2017/nips_sysml_dawnbench.pdf

MLPerf

https://mlperf.org/

第15課：Project presentations

更多閱讀材料：https://cs217.github.io/readings

課程PPT：https://cs217.github.io/lecture_slides

第一課對(duì)深度學(xué)習(xí)的發(fā)展、摩爾定律、Dennard Scaling、相關(guān)理論方法等做了較為詳盡的介紹，非常干貨，下面附上第一課的PPT。

深度學(xué)習(xí)的挑戰(zhàn)：深度學(xué)習(xí)存在理論嗎？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴