天域苍穹,完美世界txt全集下载,怎样写网络小说

圖 1 吳雙（左側(cè)）和李國齊（右側(cè)）- 被錄用文章的兩位作者

清華大學(xué)類腦計算研究中心博士生吳雙的論文被 ICLR2018 收錄并在會上做口頭報告。迄今為止，這是中國作為第一署名單位里唯一一篇被 ICLR 會議收錄的口頭報告文章。該報告主要探討如何實現(xiàn)對全離散化深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和推理，便于部署到嵌入式設(shè)備中。

ICLR 是深度學(xué)習(xí)領(lǐng)域的頂會，更被譽為深度學(xué)習(xí)的“無冕之王”，得到了 google, Facebook, DeepMind, Amazon，IBM 等眾多高科技公司的高度關(guān)注和參與。ICLR2018 于當(dāng)?shù)貢r間 2018 年 4 月 30 日在加拿大溫哥華會展中心召開，為期 4 天。本次大會的主席是深度學(xué)習(xí)領(lǐng)域三巨頭中的 Yoshua Bengio（蒙特利爾大學(xué)）和 Yann LeCun （紐約大學(xué) & Facebook），本次大會收到一千多篇投稿文章，其中僅有 23 篇被收錄為本次會議的口頭報告文章。

吳雙同學(xué)的報告題目為 “Training and Inference with Integers in Deep Neural Networks”。

離散化架構(gòu) WAGE，訓(xùn)練推理合二為一

該報告主要探討如何實現(xiàn)對全離散化深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和推理，便于部署到嵌入式設(shè)備中。

在深度學(xué)習(xí)領(lǐng)域，高精度意味著大面積、高功耗，從而導(dǎo)致高成本，這背離了嵌入式設(shè)備的需求，因此硬件加速器和神經(jīng)形態(tài)芯片往往采用低精度的硬件實現(xiàn)方式。在低精度的算法研究方面，之前的工作主要集中在對前向推理網(wǎng)絡(luò)的權(quán)重值和激活值的縮減，使之可以部署在硬件加速器和神經(jīng)形態(tài)芯片上；而網(wǎng)絡(luò)的訓(xùn)練還是借助于高精度浮點實現(xiàn)（GPU）。這種訓(xùn)練和推理的分離模式往往導(dǎo)致需要耗費大量的額外精力，對訓(xùn)練好的浮點網(wǎng)絡(luò)進行低精度轉(zhuǎn)換，這不僅嚴重影響了神經(jīng)網(wǎng)絡(luò)的應(yīng)用部署，更限制了在應(yīng)用端的在線改善。

為應(yīng)對這種情況，本文提出了一種聯(lián)合的離散化架構(gòu) WAGE，首次實現(xiàn)了將離散化神經(jīng)網(wǎng)絡(luò)的反向訓(xùn)練過程和前向推理合二為一。具體來說就是將網(wǎng)絡(luò)權(quán)重、激活值、反向誤差、權(quán)重梯度用全用低精度整形數(shù)表達，在網(wǎng)絡(luò)訓(xùn)練時去掉難以量化的操作及操作數(shù)（比如批歸一化等），從而實現(xiàn)整個訓(xùn)練流程全部用整數(shù)完成。

在數(shù)據(jù)集實測中，WAGE 的離散化方法能夠有效的提高測試精度。由于該方法能夠同時滿足深度學(xué)習(xí)加速器和神經(jīng)形態(tài)芯片的低功耗和反向訓(xùn)練需求，更使之具備高效地在線學(xué)習(xí)的能力，對未來多場景、多目標(biāo)的可遷移、可持續(xù)學(xué)習(xí)的人工智能應(yīng)用將大有裨益。

WAGE框架將訓(xùn)練和推理中的所有層中的權(quán)重（ weights ，W），激活值（ ac tivations ，A），梯度（ gradients ，G）和誤差（ errors ，E）限制為低位整數(shù)。首先，對于操作數(shù)，應(yīng)用線性映射和方向保持移位來實現(xiàn)三元權(quán)重，用于激活和梯度累加的8位整數(shù)。其次，對于操作，批歸一化由一個常數(shù)因子取代。用于微調(diào)的其他技術(shù)（如具有動量和L2正則化的SGD優(yōu)化器）可以簡化或放棄，性能的下降很小。考慮到整體雙向傳播，我們完全簡化了累積比較周期的推理，并分別訓(xùn)練到具有對齊操作的低位乘法累加（MAC）周期。

所提出的框架在MNIST，CIFAR10，SVHN，ImageNet數(shù)據(jù)集上進行評估。相對于只在推理時離散權(quán)重和激活的框架，WAGE具有可比的準(zhǔn)確性，并且可以進一步減輕過擬合。WAGE為DNN生成純粹的雙向低精度整數(shù)數(shù)據(jù)流，可以將其用于專門硬件的訓(xùn)練和推理。我們在GitHub上發(fā)布了代碼。

圖1

圖2：WAGE的量化方法

實現(xiàn)細節(jié)

MNIST：采用LeNet-5的一個變體。WAGE中的學(xué)習(xí)率η在整個100個epochs中保持為1。我們報告了測試集上10次運行的平均準(zhǔn)確度。

SVHN＆CIFAR10：錯誤率的評估方式與MNIST相同。

ImageNet：使用AlexNe模型在ILSVRC12數(shù)據(jù)集上評估WAGE框架。

表1：WAGE及其他方法在多個數(shù)據(jù)集上的測試或驗證錯誤率（％）

圖3：訓(xùn)練曲線

結(jié)論和未來工作

這項工作的目標(biāo)是展示在DNN中應(yīng)用低位整數(shù)訓(xùn)練和推理的潛力。與FP16相比，8-bit整數(shù)運算不僅會降低IC設(shè)計的能耗和面積成本（約5倍，見Table 5），還會減少訓(xùn)練期間內(nèi)存訪問成本和內(nèi)存大小要求，這將大大有利于具有現(xiàn)場學(xué)習(xí)能力的的移動設(shè)備。這個工作中有一些沒有涉及到的點，未來的算法開發(fā)和硬件部署還有待改進或解決。

表5

WAGE使DNN的純低位整數(shù)數(shù)據(jù)流進行訓(xùn)練和推理得以實現(xiàn)。我們引入一種新的初始化方法和分層常數(shù)比例因子來取代批歸一化，這是網(wǎng)絡(luò)量化的一個難點。此外，還探討了誤差計算和梯度累積的位寬要求。實驗表明，我們可以量化梯度的相對值，并且在反向傳播中丟棄大多數(shù)小值及其數(shù)量級。雖然為了穩(wěn)定收斂和最終的精度，權(quán)重更新的積累是必不可少的，但仍然可以在訓(xùn)練中進一步減少壓縮和內(nèi)存消耗。WAGE在多個數(shù)據(jù)集實現(xiàn)了最高精度。通過微調(diào)、更有效的映射、批歸一化等量化方法，對增量工作有一定的應(yīng)用前景。總而言之，我們提出了一個沒有浮點表示的框架，并展示了在基于整數(shù)的輕量級ASIC或具有現(xiàn)場學(xué)習(xí)能力的FPGA上實現(xiàn)離散訓(xùn)練和推理的潛力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴