目前,人們對性能強大且結構復雜的計算機已是司空見慣。通過與手機和藍牙音響對話,我們可以收到環境敏感信息的反饋;駕駛某些汽車時,我們可以雙手脫離方向盤,讓電子設備帶我們上路;只要觸摸某個按鈕,我們便可以與世界任何地方的任何人分享信息和圖片。
但目前有一個領域仍處于初步階段:計算機“視覺”。雖然我們的口袋里裝著性能極佳的相機,但要真正了解這個世界,這些設備相對來說便黯然失色了。因為設備雖然可以清晰地捕捉到世界的畫面,卻不能理解畫面的內涵。
例如,如果您給一個三歲小孩展示一張人與大象同框的照片,他可以清楚地告知照片的內容,但若要計算機做同樣的事情,則相當具有挑戰。
只有當使用圖像數據集對計算機進行訓練后,其方可識別對象
不過,情況正發生變化。近年來,一個稱之為“深度學習”的領域大幅提升了計算機理解所見事物的能力。深度學習,尤其是卷積神經網絡的使用,并沒有依賴傳統的圖像處理技術,而是賦予計算機理解世界的能力,且這方面已取得重大進展。
卷積神經網絡最早可以追溯到20世紀80年代末,其創建是基于20世紀60年代早期的人工神經網絡(ANN)和多層感知器(MLP)。它們最初的設計旨在模擬人腦的工作方式。當然,為了像人腦一樣做好工作,需要使用大量的數據來進行訓練。
2005年,隨著GPU的崛起,CNN開始變得廣為人知,并大量投入使用。這是因為,GPU處理重復性任務的速度使得CNN的使用變成現實。
2012年,計算機視覺智能領域的工作取得了重大的飛躍,Alex Krizhevsky使用神經網絡贏得了ImageNet挑戰賽。這是一個巨大的圖像數據庫,含有數百萬圖像數據,由普林斯頓大學李凱教授于2007年創建。該數據庫為計算機提供了充足的訓練數據,使之能以如孩童學習的方式進行學習。通常,ImageNet挑戰賽被看作計算機視覺領域一年一度的奧林匹克盛會,其基于篩選的圖像,測試計算機學會理解所見對象的速度有多快。失誤越少,比分則越高。
2012年,AlexNet CNN迅速提升了圖像識別性能,產生了重大的影響
當時,Krizhevsky能夠將錯誤率從26%降到15%——這是一個重大的改進,且是通過使用卷積神經網絡而實現的。每年,隨著創立團隊創建了更好的系統來加速和提高設備理解圖像的能力,故而這一進程也得到了持續的改進。
ImageNet CNN的性能近年來持續優化
但CNN如何在現實世界使用,它們又將產生怎樣的影響?
輔助技術
在《2001:太空漫游》中有一個著名的場景,宇航員大衛·保曼和富蘭克·保爾躲在一個艙里,在這個艙里,飛船計算機HAL無法聽到他們對它古怪行為的談話。然而,HAL卻能讀懂他們的唇語。按現階段,我們知道,HAL將使用CNN來破譯他們說的話。唇讀計算機還有更多的使用案例,如從音頻不可用的視頻內容中獲取副本、記者獲取政客或名人更真實的言論等。
1968年拍攝的電影《2001:太空漫游》中的HAL9000展示讀唇術
來自牛津大學的一組研究人員已提出使用CNN進行唇讀,另一篇提交給IEEE的論文則指出如何使用CNN“減少物體搖晃及面部特征提取模糊造成的負面影響”。這里,便生成了一個詞,識別率高達71.76%,這要遠優于傳統的方法。
不過,目前,你仍可以以手中的設備感受CNN的強大。有一款名為AIPoly的APP,其設計可以幫助視力有缺陷人士在使用了Imagination PowerVR GPU的智能手機上,通過攝像機識別物體并語音反饋信息。
全自動駕駛汽車
CNN與全自動駕駛汽車也密切相關,但使用CNN驅動全自動駕駛汽車仍在開發中。來自康奈爾大學的論文探討了如何有效使用CNN來識別汽車牌照,其相比傳統的方式效果更佳。當然,車牌并不像移動的物體那樣不可預測,但有一篇討論CNN的論文指出,使用CNN相比傳統的方法效率更高。
談及移動物體,人們自然地認為,CNN作為ADAS和汽車全自動視覺系統中使用的最重要的算法,將在全自動駕駛汽車領域發揮重大的作用。CNN在分析場景方面十分高效,它將場景分解為可識別的對象,直至場景中的物體、行人、汽車、卡車、路肩、路標在攝像機系統中可以被識別。通過使用大量的訓練數據,卷積網絡可以“學習”在實時駕駛時如何從場景中進行信息識別和提取。舉例來說,通過CNN的各個層,可以發現拐角/彎道,隨后是環路、路標,最后是路標的含義。這些信息隨后傳遞給傳感器,并與其他傳感器如激光雷達或雷達中的數據進行融合,這樣便可以理解更大的圖景,并通過多媒體交互系統發出閃光警告或控制剎車或轉向,以此對場景做出反應。
CNN可以在CPU或使用GPU計算的設備上使用,這將更加有效(效率至少提升10倍),或者通過硬件加速,最終以最低的功耗和硅占用面積來獲得最高的性能。
醫療應用
從本質上來說,CNN非常善于發現,這個特性使之非常適合醫療環境。正如在Nature.com發表的論文所討論的一樣,CNN可以有效地提高癌癥識別的準確性,并已被應用于檢測“原發性乳腺癌、神經膠質瘤及上皮與基質分割”。高效率則意味著它們可以減少醫學專家的工作量。論文總結道,“深度學習”在“提高前列腺癌和乳腺癌分期診斷療效方面將具有巨大的潛力”。
同樣,康奈爾大學發表的論文指出,使用CNN協助乳腺癌篩查,當采樣訓練數據時可以影響圖像保真度,因此建議要保持圖像的分辨率,以確保性能最佳。
工業領域
如果您對計算機自我構建有憂慮,那您的擔憂不無道理。半導體行業一直著眼于利用深度學習來輔助設計和制造先進的集成電路。通常認為,CNN解決某些制造問題十分適合。與識別癌癥相似的是,在光刻工藝過程中,CNN的識別模式可以得到充分的利用,極大地降低了制造缺陷,提高了生產產量。
CNN還被廣泛應用于食品識別。有論文討論了利用CNN進行自動飲食識別,使專家能夠發現不健康的飲食模式。還有幾篇論文也對CNN的這種功能進行過描述。它們指出,計算機“深度飲食”可以輔助飲食評估,改善人們的健康狀況、延長壽命。
社交媒體領域
讓數字圖像的顯示效果達到最佳,這是一項技能。許多人通過使用圖像修復工具并花費了大量的精力以期達到這一理想的效果。來自Adobe和康奈爾大學的一項名為“深度照片風格轉移”的實驗正試圖通過應用人工智能來達到這一效果。這款應用可以以某種風格拍攝一張照片,并自動將此風格應用到另一張照片上,效果顯著。
CNN已被Facebook等網站廣泛應用。Facebook描述了他們如何在深度文本中使用CNN,“深度文本”即“基于深度學習的文本理解引擎,可以以接近人類的準確性,每秒理解幾千個帖子的文本內容,并橫跨超過20種語言。”
總結
Imagination一直密切關注加速推理引擎使用的方法。它們一旦在數據集上進行了全面的訓練,就可以在設備上運行CNN。正如我們去年發布的PowerVR Rogue GPU,相比CPU,其運行效率已提升3倍,性能提升12倍。新發布的PowerVR Furian架構的性能和功效將更強大。
在最近的博文中,我們突出呈現了這一領域的工作,以及我們如何率先使用OpenVX CNN擴展,即計算機視覺的開源標準API。
我們將繼續從事該領域的工作。Imagination的保羅·布萊斯萊特最近在嵌入式視覺峰會發表了題為“訓練CNN用于高效推理”的演講。在他的演講中,闡述了Imagination在硬件上運行CNN以提升效率的方法。硬件功率和面積的限制是主要的關注點,如移動設備或全自動駕駛汽車的硬件等。
-
計算機視覺
+關注
關注
9文章
1706瀏覽量
46591 -
卷積神經網絡
+關注
關注
4文章
369瀏覽量
12211
發布評論請先 登錄
評論