AI Scholar Weekly是AI領(lǐng)域的學(xué)術(shù)專欄,致力于為你帶來最新潮、最全面、最深度的AI學(xué)術(shù)概覽,一網(wǎng)打盡每周AI學(xué)術(shù)的前沿資訊,文末還會不定期更新AI黑鏡系列小故事。
周一更新,做AI科研,每周從這一篇開始就夠啦!
本周關(guān)鍵詞:開源圖像分段數(shù)據(jù)標(biāo)記軟件;深層卷積;SoTA人臉圖像編輯系統(tǒng);實時3D物體識別。
還記得2018年Wider Challenge嗎?現(xiàn)在結(jié)果出來啦
大眾評判的基準(zhǔn)和ImageNet與COCO舉辦的系列挑戰(zhàn)賽,都在逐步推進(jìn)AI研究的發(fā)展。這些舉措不但激發(fā)了來自學(xué)術(shù)界和行業(yè)內(nèi)外的學(xué)者與開發(fā)人員參與其中,還鼓勵他們更加深入地進(jìn)行研究與開發(fā),正是這樣的結(jié)果激勵了人臉(識別)與行人(檢測)這些行業(yè)舉辦頂級賽事。
該項挑戰(zhàn)的三項任務(wù)來自計算機視覺中一些長期存在的挑戰(zhàn)以及估計問題,其中包括人臉檢測,行人檢測和人物搜尋。
結(jié)果:挑戰(zhàn)總結(jié)及成功的解決方案
挑戰(zhàn)者將會得到關(guān)于以上三項任務(wù)的基礎(chǔ)數(shù)據(jù)集,在參與流程的知道小,挑戰(zhàn)者需要將他們的模型輸出結(jié)果上傳至公共評估服務(wù)器,該服務(wù)器分為驗證階段和最終測試階段,最終勝利的挑戰(zhàn)者將由模型的輸出表現(xiàn)來確定。
這篇研究論文對提交了有效結(jié)果的100多位挑戰(zhàn)者的研究思路進(jìn)行了總結(jié)。在人臉檢測任務(wù)中,獲勝者通過整合多重人臉識別預(yù)測來設(shè)計了一個獨立檢測器。
在行人檢測競賽中,獲勝者提出了一個級聯(lián)的R-CNN模型與強大的附加結(jié)構(gòu),用來提高性能。而在人物搜尋競賽中,獲勝者設(shè)計了一個級聯(lián)模型,該模型使用了每個人的臉部特征以及身體特征。除此之外,該研究論文還介紹了前5位獲勝者的研究思路細(xì)節(jié)。
潛在應(yīng)用與效果
WIDER challenge激勵了開發(fā)者與研究學(xué)者進(jìn)一步去研究和解決計算機視覺中的關(guān)鍵問題。新的方法毋庸置疑會推動并構(gòu)建有效的系統(tǒng),使得人們在人臉檢測和物體檢測方向中解決一些更為嚴(yán)峻的問題。
原文:
https://arxiv.org/abs/1902.06854v1
用于學(xué)習(xí)多個視覺領(lǐng)域的深層卷積
深層可分離卷積已被證實非常適合進(jìn)行標(biāo)準(zhǔn)卷積應(yīng)用,其中包括圖像分類,自然語言處理和嵌入式視覺應(yīng)用。這項研究則是首次在深層(卷積)中探索其在多領(lǐng)域中的應(yīng)用,它是基于來自不同領(lǐng)域的共享跨道關(guān)系的假設(shè)。
為了能在不同領(lǐng)域中進(jìn)行有效的知識傳送,研究人員引用softmax的門控機制,在視覺全能挑戰(zhàn)基準(zhǔn)上進(jìn)行了測試,他們采取的方法得分高于目前最新的傳統(tǒng)方法的得分。
潛在應(yīng)用與效果
研究者提出的方法比較經(jīng)典,易于拓展,可以以較少的算力來訓(xùn)練和適應(yīng)新的領(lǐng)域。深層卷積同樣也可以用來提高特定區(qū)域的精度。該方法可以應(yīng)用于優(yōu)化計算機視覺、情感分析、推薦系統(tǒng)等領(lǐng)域。
原文:
https://arxiv.org/abs/1902.00927v2
SC-FEGAN :新人臉編輯系統(tǒng)
SC-FEGAN 是一款高端人臉編輯系統(tǒng)。它基于CNN,使用用戶的草圖和顏色作為輸入,來生成并合成高質(zhì)量的圖像,而用戶僅僅需要完成簡單的任務(wù)即可。
為了優(yōu)化圖像不完美的邊緣,SC-FEGAN 加入了使用門控卷積的自由形式圖像修復(fù)(SN-patch GAN),此外,它還訓(xùn)練了GAN與風(fēng)格損失函數(shù)實現(xiàn)高質(zhì)量的圖像編輯。根據(jù)這項研究,將SC-FEGAN 在結(jié)構(gòu)和形狀的質(zhì)量方面上述的圖像修復(fù)方法進(jìn)行比較方向——使用自由形式的模型產(chǎn)生的效果更好。研究人員在celebA-HQ數(shù)據(jù)集上對該系統(tǒng)進(jìn)行了分別的訓(xùn)練。
潛在應(yīng)用與效果
SC-FEGAN 只需一次通過,即可執(zhí)行轉(zhuǎn)換和恢復(fù)大部分面積的面部圖像。它還允許用戶自主編輯圖像特征,比如發(fā)型、臉型、眼睛、嘴巴等等。SC-FEGAN具有推動面部識別應(yīng)用工作的潛力。此外,它還能幫助生成我們非常需要的高質(zhì)量的基礎(chǔ)圖像數(shù)據(jù)集。
原文:
https://arxiv.org/abs/1902.06838v1
非標(biāo)記(Free Label)的快速、高質(zhì)量注解
這篇新發(fā)布的研究報告介紹了一個新工具——Free Label,該工具的目標(biāo)是幫助用戶獲得高質(zhì)量的、可以很容易適應(yīng)不同數(shù)據(jù)集和種類的注解。這項基于Web的工具,為圖像分類數(shù)據(jù)集快速、高質(zhì)量的標(biāo)注提供了一種典型的交互式界面。
為了達(dá)到精煉的語義分類,F(xiàn)ree Label實現(xiàn)了區(qū)域生長分割(Region Growing Refinement,即RGR)算法。RGR可以是完全非監(jiān)督式的,并且實現(xiàn)起來很簡單。不像其他相關(guān)算法,它的計算時間和參數(shù)化允許極快速的用戶交互。由于Free Label實現(xiàn)了一個模塊設(shè)計并且僅僅依賴于開源庫,因此很容易便能被獲取。它能夠被部署到一個本地或外部的服務(wù)器上,允許用戶通過私有或公有的方法來做注解。
潛在應(yīng)用與效果
通過利用Free Label的模塊化結(jié)構(gòu)來輕易標(biāo)注圖像數(shù)據(jù)集,深度學(xué)習(xí)社區(qū)可以很大程度上從中獲益。Free Label也可以被調(diào)整去幫助對不同數(shù)據(jù)集的有效分類,此舉可以幫助開發(fā)更加精確和魯棒的模型。可以通過短視頻教程和一個有趣的、游戲版本的Free Label,去學(xué)習(xí)如何使用并合理地標(biāo)注數(shù)據(jù)集。
原文:
https://arxiv.org/abs/1902.06806v1
代碼:
https://bitbucket.org/phil_dias/freelabel-wacv/src
LiDAR FlowNet:用GRU來估計動態(tài)流
研究者們最近提出了一個基于高級神經(jīng)網(wǎng)絡(luò)2D Map預(yù)測方法的動態(tài)流LiDAR-FlowNet,它現(xiàn)在可以在來自上一個和目前框架下已存在的Map和未知的Map中估計動態(tài)流。
除此之外,為了取得高水平表現(xiàn),他們已經(jīng)設(shè)計了一個自監(jiān)督的策略來訓(xùn)練LiDAR FlowNet。這讓在2D LiDAR-FlowNet Map上預(yù)測下一個動態(tài)變得簡單明了起來。對于研究者和開發(fā)者來說,好消息是這項新方法的測試結(jié)果驗證了它的有效性。
潛在應(yīng)用與效果
對人工智能和機器學(xué)習(xí)社區(qū)來說,LiDAR FlowNet能夠幫助我們找到一個更便宜的方式去實現(xiàn)高級LiDAR Map預(yù)測。這個舉措將會刺激所有動態(tài)規(guī)劃應(yīng)用領(lǐng)域的潛在機會,從而推動整個領(lǐng)域的進(jìn)步,例如真實世界中自動控制的設(shè)計和應(yīng)用,自動駕駛汽車,角色動畫,建筑設(shè)計,游戲,分子生物等等。
原文:
https://arxiv.org/abs/1902.06919v1
PIXOR:來自點云的實時3D對象探測
新研究發(fā)現(xiàn)了一個新的單階段檢測器模型——PIXOR,可以從像素神經(jīng)網(wǎng)絡(luò)預(yù)測解碼,從而輸出實時的、基于3D對象的估計。可以它想成一個為密集的基于3D對象檢測設(shè)計的完全卷積神經(jīng)網(wǎng)絡(luò)。模型輸入描述包括鳥瞰的視野網(wǎng)絡(luò)結(jié)構(gòu)以及一個模型優(yōu)化方法,該方法是為在自動駕駛中取得平衡感,從而獲得高精確度和實時效率而設(shè)計的。
研究者在KITTI BEV目標(biāo)檢測以及大規(guī)模3D機動車檢測基準(zhǔn)上證實了PIXOR的有效性。結(jié)果顯示,對比最先進(jìn)的卷積方法,PIXOR在超過28FPS運轉(zhuǎn)的同時,能提供高水平的效率和AP(平均精度,Average Precision)準(zhǔn)確度。
潛在應(yīng)用與效果
PIXOR通過增加LIDAR對象和面部識別,為魯棒的3D對象定位取得了更高的簡化度和更低的成本。模型有潛力去實現(xiàn)一些自動駕駛汽車的關(guān)鍵技術(shù),比如實時3D屏重構(gòu),自定位和通過語義分析以及面對對象的語義理解讓機動車實時響應(yīng)。
原文:
https://arxiv.org/abs/1902.06326v1
AI黑鏡——基于AI技術(shù)的人倫小故事
恐怖分子在哪里
在我們共享的線上工作區(qū)忽然蹦出了一些字符,不是聊天信息也不是筆記,是一個通知,“相關(guān)信息已被上傳至RECOG。”
憤怒的一刻——顯然,在我們的工作系統(tǒng)中插入這個程序已成定局。就像在星期五下午突然通知要加班一樣,對于一個我們沒有調(diào)查或調(diào)試權(quán)限的系統(tǒng),我們當(dāng)然不可能提出不同意見。同樣,在這個問題上,我們的意見并不重要。
盡管這個系統(tǒng)是否能得出有價值的結(jié)果還不得而知,但是它工作的方式已經(jīng)確定了,RECOG可以從我們所有的任務(wù)和對話中學(xué)習(xí)。
之后,很多人的情緒開始從憤怒開始感到驚慌——RECOG的工作界面一直顯示“正在工作……”,從來不會拒絕響應(yīng)。
我們要把RECOG訓(xùn)練成一個目標(biāo)識別和問題回答的系統(tǒng)。但它不是我們開發(fā)的系統(tǒng),是政府把它從……不知道什么地方帶來的,也正因如此,這個東西的訪問權(quán)限設(shè)置非常謹(jǐn)慎。
我只知道我們的工作是,把其中的黑盒內(nèi)容轉(zhuǎn)變成邏輯清晰的系統(tǒng)。
但是,我們無法查看它的大部分代碼,只能通過精心設(shè)計的問題測試它。
所以我們給它提供了大量的城市圖像。他們用綁在無人駕駛飛機上的高分辨率攝像機收集了好幾天的資料,為了了解這些圖像中的人是誰,或者至少了解他們的工作。
當(dāng)時我們正在解決校準(zhǔn)問題,從最簡單的問題“那里有多少男性穿著紅色夾克、戴著墨鏡?”,到復(fù)雜的問題“哪個熱狗攤最火爆?”系統(tǒng)的回應(yīng)非常精彩,以至于有人忽然問出了那個問題。
那時只有我們?nèi)齻€人還在做這個項目。指令的來源無法追蹤,所以我不知道這個問題的具體內(nèi)容,但我知道接下來發(fā)生了什么。
“工作……完成。找到匹配目標(biāo)。”
在一張巨大的城市鳥瞰圖像中,一個小紅框迅速放大并填充了我們面前的顯示器。
人類概率:99%
男性概率:91%
罪犯概率:77%
恐怖分子概率:70%
問題是,是誰建立了這些類別?
我們之后都沒有再說話,各自回去工作,假裝什么都沒發(fā)生。
我之后聽說了RECOG犯了個大錯,那天它鎖定的人是個FBI探員,被派跟蹤并吸引國內(nèi)的潛在恐怖分子現(xiàn)身。他當(dāng)時正在去見一個他追蹤的人的路上。而這馬上被RECOG關(guān)注到了。
無論發(fā)生了什么,我們那天傍晚就接到電話,被告知接下來的這周我們可以休息了,而在那之后不久,我們又被告知接下來可以一直休息,因為他們把這個項目撤下來了。我猜他們認(rèn)為這個項目已經(jīng)不適合再交給我們做了。
但是,我一直想知道RECOG下一步會出現(xiàn)在哪里?
我一直想做一個鳥類識別的系統(tǒng)。雖然真實的鳥味道不好聞、很吵并且總需要被喂食,但鳥類的圖像是很美的。我的教授認(rèn)為這個項目會很簡單,我只需要提供一個夏天的時間就能完成。
但現(xiàn)在,我卻在想,政府的這些步驟會給恐怖分子提供些什么?
在人類歷史上的一些特殊時期,人們經(jīng)常會因為舉報——比如嫉妒的鄰居舉報或者腐敗的警察敲詐,被拖走并折磨至死。那么一個如果廉潔的機器所說的話,又會引發(fā)怎樣的事情呢?
-
檢測器
+關(guān)注
關(guān)注
1文章
871瀏覽量
47809 -
圖像分類
+關(guān)注
關(guān)注
0文章
93瀏覽量
11967 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1210瀏覽量
24861
原文標(biāo)題:Wider Challenge結(jié)果爆出,實時3D對象探測技術(shù)發(fā)布 | AI一周學(xué)術(shù)
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
ADS1298如何把心電波形顯示出來?
安信可大功率LoRa模組來啦,傳輸距離可達(dá)6.7km
![安信可大功率LoRa模組<b class='flag-5'>來啦</b>,傳輸距離可達(dá)6.7km](https://file1.elecfans.com/web2/M00/B2/78/wKgaomVtd6KAfnb3AAA2-gyc3Ao368.png)
ADS8331設(shè)置為單通道采集,而結(jié)果卻是4個通道輪流采集,轉(zhuǎn)換出來的結(jié)果誤差很大,為什么?
ADS1115通道之間輪流轉(zhuǎn)換采樣時,出來的都是其中一路的結(jié)果,為什么?
用ADS1115結(jié)果采樣出來的只有65536,請問這是怎么回事啊?
溫度對電橋測量結(jié)果的影響
用ads1255這塊芯片進(jìn)行電壓采集,但結(jié)果一直不對,為什么?
用INA190A1測電流,測出來的結(jié)果總是要比實際值大5mA左右,為什么?
今晚直播!OpenHarmony應(yīng)用開發(fā)精品課程第二期來啦~
做諧振放大器,諧振頻率為15M,結(jié)果測出來-3dB點的頻率范圍為3M,遠(yuǎn)遠(yuǎn)不能達(dá)到指標(biāo),為什么?
調(diào)試VCA810 datasheet中的AGC電路,調(diào)了好長時間偶然中才出來結(jié)果,為什么?
海康微影手持聲波成像儀助力提升巡檢效率
倉頡來啦,辟謠:不是中文編程
什么是繼電器?繼電器開和關(guān)要多久?
![什么是繼電器?繼電器開和關(guān)要多久?](https://file1.elecfans.com/web2/M00/D9/07/wKgZomYpvKKAWKpaAACOFAWxj4Q815.png)
評論