最近,科大訊飛在國(guó)際自動(dòng)駕駛領(lǐng)域權(quán)威評(píng)測(cè)任務(wù)Cityscapes中,以明顯優(yōu)勢(shì)刷新了像素級(jí)圖像場(chǎng)景分割任務(wù)、實(shí)例級(jí)圖像場(chǎng)景分割任務(wù)全部?jī)身?xiàng)子任務(wù)的世界紀(jì)錄,拿下了2018年獲得的第七個(gè)世界第一。
科大訊飛又拿下一個(gè)世界第一,而且是在計(jì)算機(jī)視覺領(lǐng)域。
近日,科大訊飛在國(guó)際自動(dòng)駕駛領(lǐng)域權(quán)威評(píng)測(cè)任務(wù)Cityscapes中,以明顯優(yōu)勢(shì)刷新了像素級(jí)圖像場(chǎng)景分割任務(wù)、實(shí)例級(jí)圖像場(chǎng)景分割任務(wù)全部?jī)身?xiàng)子任務(wù)的世界紀(jì)錄。
2018年,在計(jì)算機(jī)視覺領(lǐng)域,訊飛已連續(xù)在IDRiD眼底圖分析競(jìng)賽、ICPR MTWI圖文識(shí)別挑戰(zhàn)賽中斬獲桂冠,這次拿下Cityscapes第一名,也再次佐證科大訊飛在計(jì)算機(jī)視覺領(lǐng)域也有技術(shù)實(shí)力。
Cityscapes評(píng)測(cè)數(shù)據(jù)集:多維度考量自動(dòng)駕駛圖像語(yǔ)義分割,近百家機(jī)構(gòu)“群雄逐鹿”
Cityscapes評(píng)測(cè)任務(wù)是由奔馳主推,提供在駕駛領(lǐng)域進(jìn)行效果和性能測(cè)試的圖像分割數(shù)據(jù)集。該評(píng)測(cè)任務(wù)關(guān)注真實(shí)場(chǎng)景下的道路環(huán)境理解,用于評(píng)估參與測(cè)試的算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能。
相比其他自動(dòng)駕駛領(lǐng)域的測(cè)試數(shù)據(jù)集,Cityscapes任務(wù)難度更高,更加貼近自動(dòng)駕駛等當(dāng)下熱門需求,近年來(lái)的熱度也不斷攀升。截至目前,評(píng)測(cè)已經(jīng)吸引了包括谷歌、英偉達(dá)、三星、騰訊和香港中文大學(xué)等近百家國(guó)內(nèi)外優(yōu)秀創(chuàng)新企業(yè)和頂尖學(xué)術(shù)機(jī)構(gòu)的參與。
在Cityscapes任務(wù)所應(yīng)用的數(shù)據(jù)集中,包含了5000張精細(xì)標(biāo)注的圖像和20000張粗略標(biāo)注的圖像,這些圖像包含50個(gè)城市的不同場(chǎng)景、不同背景、不同街景,以及30類涵蓋地面、建筑、交通標(biāo)志、自然、天空、人和車輛等的物體標(biāo)注。
Cityscapes評(píng)測(cè)集有兩項(xiàng)任務(wù):像素級(jí)(Pixel-level)圖像場(chǎng)景分割(以下簡(jiǎn)稱語(yǔ)義分割)與實(shí)例級(jí)(Instance-level)圖像場(chǎng)景分割(以下簡(jiǎn)稱實(shí)例分割)。去年10月,科大訊飛曾參與前者并刷新記錄;此次科大訊飛同時(shí)參與全部?jī)身?xiàng)任務(wù)的測(cè)評(píng),不僅再次刷新了語(yǔ)義分割任務(wù)的世界紀(jì)錄,同時(shí)以較大優(yōu)勢(shì)刷新了實(shí)例分割任務(wù)的世界紀(jì)錄。
包攬兩項(xiàng)第一背后的秘密:基于圖像檢測(cè)和分割基礎(chǔ)算法創(chuàng)新
Cityscapes評(píng)測(cè)集中,語(yǔ)義分割任務(wù)(Pixel-Level Semantic Labeling Task)使用標(biāo)準(zhǔn)的PASCAL VOC IoU(intersection-over-union)得分來(lái)評(píng)估預(yù)測(cè)結(jié)果與真實(shí)場(chǎng)景之間的匹配準(zhǔn)確度,要求參賽算法能夠?qū)D像中的每一個(gè)像素點(diǎn)進(jìn)行準(zhǔn)確的類別預(yù)測(cè), 每個(gè)像素點(diǎn)的預(yù)測(cè)結(jié)果都會(huì)直接影響到最終得分。
像素級(jí)圖像場(chǎng)景分割任務(wù)榜單
實(shí)例分割任務(wù)(Instance-Level Semantic Labeling Task)則是同時(shí)對(duì)每個(gè)目標(biāo)進(jìn)行定位和語(yǔ)義分割,每個(gè)目標(biāo)即為實(shí)例,該任務(wù)最終以每個(gè)實(shí)例的分割準(zhǔn)確度進(jìn)行評(píng)估。
實(shí)例級(jí)圖像場(chǎng)景分割任務(wù)榜單
這兩個(gè)任務(wù)的主要區(qū)別在于,在對(duì)某些類別目標(biāo)進(jìn)行像素級(jí)的分類基礎(chǔ)上,實(shí)例分割還需要進(jìn)行不同實(shí)例間的區(qū)分,例如需要區(qū)分圖像中的車輛和行人,還要將車輛中不同的汽車進(jìn)行區(qū)分和標(biāo)注。
(結(jié)果示意圖:左-原圖,中-語(yǔ)義分割結(jié)果圖,右-實(shí)例分割結(jié)果圖)
針對(duì)Cityscapes數(shù)據(jù)集“尺寸變化大、相互遮擋多、目標(biāo)辨識(shí)難”的特點(diǎn),訊飛團(tuán)隊(duì)基于圖像檢測(cè)和分割基礎(chǔ)算法的多年研究積累,引入了多項(xiàng)創(chuàng)新性技術(shù)。在設(shè)計(jì)語(yǔ)義分割模型方案時(shí),基于Encoder-Decoder框架,融合注意力機(jī)制、可變形卷積操作等思想,創(chuàng)新性地增加了一組尺度自適應(yīng)矯正網(wǎng)絡(luò),使得模型能夠充分地利用各層級(jí)特征和上下文信息來(lái)有效地應(yīng)對(duì)場(chǎng)景中類別尺寸的變化,同時(shí)通過(guò)目標(biāo)函數(shù)的設(shè)計(jì)對(duì)圖像各像素點(diǎn)進(jìn)行加權(quán)編碼及梯度規(guī)整,提升難以辨識(shí)的“難例”像素點(diǎn)尤其是各類別邊緣相交區(qū)域像素點(diǎn)的預(yù)測(cè)準(zhǔn)確度,進(jìn)一步提升整幅圖像場(chǎng)景中每一個(gè)像素點(diǎn)的預(yù)測(cè)準(zhǔn)確性。
在實(shí)例分割方案的設(shè)計(jì)上,訊飛團(tuán)隊(duì)將級(jí)聯(lián)式檢測(cè)方案遷移到實(shí)例分割任務(wù)的定位模塊中,并針對(duì)駕駛場(chǎng)景下的一些特定的空間位置共生關(guān)系(比如:汽車出現(xiàn)在道路上,騎車者出現(xiàn)在自行車或摩托車上)引入一種空間注意力機(jī)制,逐步提升模型的定位性能,同時(shí)在分割模塊的設(shè)計(jì)上還成功借鑒語(yǔ)義分割模型成熟方案,精細(xì)化每個(gè)實(shí)例對(duì)象的分割結(jié)果,最終達(dá)到更好的實(shí)例分割性能。
計(jì)算機(jī)視覺技術(shù)落地,產(chǎn)品打開車載市場(chǎng)
科大訊飛并沒有把語(yǔ)音作為唯一的“寶”來(lái)押注,去年年會(huì)上,科大訊飛的車載產(chǎn)品飛魚2.0版本問世,除了語(yǔ)音交互外,還增加了一雙“眼鏡”——訊飛正式把計(jì)算機(jī)視覺做落地。
語(yǔ)音+視覺,是飛魚2.0打開車載市場(chǎng)的利器,這個(gè)產(chǎn)品結(jié)合了人臉、人體追蹤、手勢(shì)、紅外等多種方式為一體的人機(jī)交互解決方案,訊飛也傾注了大量的技術(shù)力量。去年10月,科大訊飛在Cityscapes評(píng)測(cè)集圖像場(chǎng)景分割任務(wù)中獲得了第一名,展示出了在視覺上的實(shí)力。
連續(xù)兩年刷新Cityscapes評(píng)測(cè)集記錄后,科大訊飛在自動(dòng)駕駛和車聯(lián)網(wǎng)技術(shù)重要賽道不斷加速。目前,訊飛為不同工作模式和不同傳感器配置的智能化車輛提供了“看得清、認(rèn)得準(zhǔn)”的核心能力:
1、可行駛區(qū)域的判斷更加精準(zhǔn)
意味著車輛在做出駕駛路線決策時(shí)有精度更高的依據(jù),可以更好地將圖像和激光雷達(dá)等感知設(shè)備返回的結(jié)果進(jìn)行綜合校驗(yàn)判斷,從而避免因單一傳感器缺陷而產(chǎn)生交通事故的可能性。
2、物體類別和形狀判斷更加精準(zhǔn)
意味著車輛對(duì)于當(dāng)前駕駛環(huán)境中其他交通參與者的屬性和具體形狀有更精確的判斷,在面對(duì)有些激光雷達(dá)難以識(shí)別的物體屬性和難以區(qū)分的物體實(shí)例時(shí),車輛可以通過(guò)視覺感知這一更加直觀且完整的方案來(lái)大幅度地降低事故出現(xiàn)的概率。
對(duì)科大訊飛而言,在從單純的智能語(yǔ)音能力提供商積極轉(zhuǎn)型為整車智能化方案提供商的進(jìn)程中,Cityscapes評(píng)測(cè)恰好成為了考驗(yàn)科大訊飛在計(jì)算機(jī)視覺領(lǐng)域算法水平的“試金石”。而通過(guò)了檢驗(yàn)的領(lǐng)先核心算法技術(shù)不僅可以更好地為訊飛保駕護(hù)航,還能進(jìn)一步加速機(jī)器視覺能力的產(chǎn)品落地應(yīng)用。
除了智能汽車領(lǐng)域,與之緊密相關(guān)的智慧城市領(lǐng)域中則涉及到道路交通流量統(tǒng)計(jì)、安防等多個(gè)實(shí)際業(yè)務(wù)場(chǎng)景。此次參與Cityscapes評(píng)測(cè)任務(wù)所帶來(lái)的核心算法能力的提升和拓展,將持續(xù)助力未來(lái)產(chǎn)品效能提升,推動(dòng)音視頻智慧交通產(chǎn)品領(lǐng)域邁向一體化。
訊飛今年拿下的七個(gè)世界第一
這是訊飛2018年獲得的第七個(gè)世界第一,之前的有:
2018年1月,機(jī)器閱讀理解SQuAD閱讀理解大賽再次刷新世界紀(jì)錄,EM得分超過(guò)人類平均水平(參賽者包括微軟、谷歌、Facebook、IBM、Salesforce、斯坦福大學(xué)、卡耐基梅隆大學(xué)、清華、北大等國(guó)內(nèi)外企業(yè)和科研機(jī)構(gòu));
2018年2月,在由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)下屬組織主辦的第十二屆國(guó)際語(yǔ)義評(píng)測(cè)比賽(SemEval2018)中,斬獲基于常識(shí)的機(jī)器閱讀理解全球第一;
2018年3月,在由醫(yī)學(xué)影像領(lǐng)域的國(guó)際頂級(jí)會(huì)議The IEEE InternationalSymposium on Biomedical Imaging (ISBI)舉辦的IDRiD糖網(wǎng)病挑戰(zhàn)賽上,取得微動(dòng)脈瘤分割任務(wù)第一名、其余三項(xiàng)任務(wù)前三名的佳績(jī);
2018年6月,在由模式識(shí)別領(lǐng)域國(guó)際學(xué)術(shù)頂會(huì)ICPR舉辦的MTWI(Multi-Type Web Images,多樣式網(wǎng)絡(luò)圖像)國(guó)際識(shí)別挑戰(zhàn)賽中,榮膺“文字識(shí)別”、“文字檢測(cè)”和“端到端識(shí)別”全部三項(xiàng)冠軍;
2018年7月,在國(guó)際權(quán)威英文語(yǔ)音合成比賽中連續(xù)13年蟬聯(lián)世界第一,仍然是語(yǔ)音合成自然度指標(biāo)全球唯一超過(guò)真人說(shuō)話水平的公司(獲得10個(gè)測(cè)評(píng)項(xiàng)目中的9項(xiàng)第一,在最關(guān)鍵的自然度和相似度評(píng)測(cè)指標(biāo)上均大幅領(lǐng)先第二名);
2018年9月,國(guó)際權(quán)威英文語(yǔ)音識(shí)別大賽“CHiME-5”中,科大訊飛包攬全部四個(gè)項(xiàng)目的第一名。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46128 -
科大訊飛
+關(guān)注
關(guān)注
19文章
818瀏覽量
61515 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
785文章
13931瀏覽量
167008
原文標(biāo)題:科大訊飛再刷新計(jì)算機(jī)視覺評(píng)測(cè)兩項(xiàng)任務(wù)世界紀(jì)錄,連奪七項(xiàng)世界第一!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論