基于深度學習的圖像識別及MxNet開源框架設計
大小:0.57 MB 人氣: 2017-10-13 需要積分:1
11日下午的深度學習分論壇,地平線機器人科技高級工程師余軼南,阿里巴巴iDST語音組高級專家鄢志杰,廈門大學教授紀榮嶸,華中科技大學教授、國家防偽工程中心副主任白翔,以及微軟亞洲研究院研究員洪春濤分享了深度學習在圖像識別、語音識別、視覺搜索、文字識別等方面的應用,以及開源深度學習框架的演進。
余軼南:基于深度學習的圖像識別進度地平線機器人科技高級工程師余軼南分享了題為《基于深度學習的圖像識別進度》的演講。
從2012年底開始,深度學習從圖象識別出發,很快席卷了所有圖像里大部分的任務,包括后來的目標檢測、圖像分割,以及各種圖像的應用,以及最近圖像超分辨率和跟蹤,都被深度學習所顛覆。神經網絡系統自由度和它的靈活性非常強,可以用這樣一套統一的東西做很多過去需要用不同處理架構做的事情。
算法方面已經做了非常多的工作,將來會在以下幾個方面有所突破:第一,理論方面Deep Learning的分析是現在所獲取的,需要進行Network的理論分析。第二,無論是谷歌,還是微軟今天公布的150多層的網絡,都是人工精心做的,這對design非常重要。第三,遇到的真實問題遠是很困難的任務,所以很多時候是Structured Data Processing。第四,Logistic、Counting、Reasonino。第五,over-Reliance ON HP-Data And HP-Communication Faster。

很多數據的獲得都是非常容易的,但是有一些數據不是這樣,有一些數據獲得成本非常高昂,而且出現頻率非常低。需要把原來云端計算模型搬到前端,之所以能搬到前端,就要在價格、功耗、成本各方面進行考量。其實相當于云端來說,前端這樣的使用場景,身邊的每一樣設備都需要智能東西對它進行全新的革命。就要有所選擇,用一款通用芯片計算單元,還是專門構建這樣一款針對DATA Network或者是不同硬件做計算。把計算適用性和指標放在這里。核數比較少的情況下,但是精度運算能力非常強,非常適合邏輯計算,現在大多數電腦和手機都在這個領域做工作。第二個方面是DSP,最大的好處是低功耗和低成本,在身邊用得最多的是這個。隨著核數越來越多,能耗比是越來越好。
無論是谷歌網絡,還是MSR ImageNet網絡,都離不開三件事情:第一,迭代。第二是轉機。最后是Multiplication。如果你把計算機迭代再加上門,你就可以做Recurrence,這三個基礎上非常繁雜,各種各樣的Network,使Network服務于不同的奇奇怪怪的需求。可以發現,人腦其實也是這樣的架構。人腦要回答幾千乘幾千問題很困難,但是可以對面前的情況做出反應。電腦可以非常快算出幾十億乘幾十億的數據,但是要處理以上的問題非常難。所以需要深度學習來進行綜合。
阿里iDST鄢志杰:Deep Learning在客服中心的應用阿里巴巴iDST語音組高級專家鄢志杰分享了題為《Deep Learning助力客服小二:數據技術及機器學習在客服中心的應用》的演講。他主要從傳統客服中心的現狀與挑戰、沉淀客服數據、全量客服質檢、自助客服四個方面進行了分享。
傳統客服中心面臨的挑戰包括:效率不高,用戶體驗欠佳;缺乏有效反饋,難以保證服務質量;隨業務發展可擴展性差。以阿里巴巴和螞蟻金融為例,傳統客服具有話務量大和用工量大的特點。這種規模膨脹帶來了三個問題:面對客戶,如何提升服務體驗?針對小二,如何提升服務質量?放眼未來,如何通過數據技術及機器學習升級傳統客服?
面對以上問題,iDST進行了以下嘗試:
語音識別沉淀客服數據,自動語音識別,將對話轉寫為文本,為后續應用提供前提。全量自動質量控制,掃描每通電話,監測基本服務質量,并且進行問題定位質檢,提升問題解答一致性。自動識別問題,提高自助渠道解決率。存儲語音數據不等于沉淀,高準確率的自動語音識別是后續諸多應用的前提。
客服電話語音識別的難點在于電話對話語音識別是語音識別領域最困難的任務之一,所以需要訓練聲學模型來識別語音。聲學模型是決定語音識別準確率的核心模型之一。快速周轉訓練聲學模型是第一要素,第二是Deep Learning。可以利用更多數據、覆蓋更多實際使用場景來提升識別準確率,但更多數據意味著更長的訓練周期,所以縮短訓練周期是工業界聲學模型訓練的核心問題之一。
他通過分析GPU多機多卡Machine Learning Middleware、基于DBLSTM的語音識別聲學模型、基于DLSTM的問題定位質檢、我的客服“因子+行為”自動問題識別對機器學習在語音方面的應用做了進一步分享。其中,問題定位模型需要確定問題類目、收集訓練數據。問題類目是定位和質檢的目標。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
基于深度學習的圖像識別及MxNet開源框架設計下載
相關電子資料下載
- 語音模塊能給落地扇帶來什么? 135
- 語音模塊能給臺式風扇帶來什么? 165
- 自動駕駛中的多感知源/單感知源提升方案 39
- 智能離線語音識別全屋智能語音控制方案 64
- 語音模塊能給吸化妝燈境帶來什么? 345
- 思必馳:離線語音識別芯片簡介 124
- 語音模塊能給玄關燈帶來什么? 113
- 語音識別技術在醫療領域的應用與前景 71
- 語音識別技術在智能家居中的應用與挑戰 55
- 語音識別技術中的實時處理與云計算 31