?
1.1 計(jì)算機(jī)視覺(jué)概述
計(jì)算機(jī)視覺(jué)(Computer Vision)又稱機(jī)器視覺(jué)(Machine Vision),是一門讓機(jī)器學(xué)會(huì)如何去“看”的學(xué)科,是深度學(xué)習(xí)技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域,被廣泛應(yīng)用到安防、工業(yè)質(zhì)檢和自動(dòng)駕駛等場(chǎng)景。具體的說(shuō),就是讓機(jī)器去識(shí)別攝像機(jī)拍攝的圖片或視頻中的物體,檢測(cè)出物體所在的位置,并對(duì)目標(biāo)物體進(jìn)行跟蹤,從而理解并描述出圖片或視頻里的場(chǎng)景和故事,以此來(lái)模擬人腦視覺(jué)系統(tǒng)。因此,計(jì)算機(jī)視覺(jué)也通常被叫做機(jī)器視覺(jué),其目的是建立能夠從圖像或者視頻中“感知”信息的人工系統(tǒng)。
計(jì)算機(jī)視覺(jué)的發(fā)展歷程要從生物視覺(jué)講起。對(duì)于生物視覺(jué)的起源,目前學(xué)術(shù)界尚沒(méi)有形成定論。有研究者認(rèn)為最早的生物視覺(jué)形成于距今約7億年前的水母之中,也有研究者認(rèn)為生物視覺(jué)產(chǎn)生于距今約5億年前寒武紀(jì)【1, 2】。寒武紀(jì)生物大爆發(fā)的原因一直是個(gè)未解之謎,不過(guò)可以肯定的是在寒武紀(jì)動(dòng)物具有了視覺(jué)能力,捕食者可以更容易地發(fā)現(xiàn)獵物,被捕食者也可以更早的發(fā)現(xiàn)天敵的位置。視覺(jué)能力加劇了獵手和獵物之間的博弈,也催生出更加激烈的生存演化規(guī)則。視覺(jué)系統(tǒng)的形成有力地推動(dòng)了食物鏈的演化,加速了生物進(jìn)化過(guò)程,是生物發(fā)展史上重要的里程碑。經(jīng)過(guò)幾億年的演化,目前人類的視覺(jué)系統(tǒng)已經(jīng)具備非常高的復(fù)雜度和強(qiáng)大的功能,人腦中神經(jīng)元數(shù)目達(dá)到了1000億個(gè),這些神經(jīng)元通過(guò)網(wǎng)絡(luò)互相連接,這樣龐大的視覺(jué)神經(jīng)網(wǎng)絡(luò)使得我們可以很輕松的觀察周圍的世界,如?圖1?所示。
?
圖1:人類視覺(jué)感知
1.2 計(jì)算機(jī)視覺(jué)應(yīng)用場(chǎng)景
計(jì)算機(jī)視覺(jué)技術(shù)經(jīng)過(guò)幾十年的發(fā)展,已經(jīng)在交通(車牌識(shí)別、道路違章抓拍)、安防(人臉閘機(jī)、小區(qū)監(jiān)控)、金融(刷臉支付、柜臺(tái)的自動(dòng)票據(jù)識(shí)別)、醫(yī)療(醫(yī)療影像診斷)、工業(yè)生產(chǎn)(產(chǎn)品缺陷自動(dòng)檢測(cè))等多個(gè)領(lǐng)域應(yīng)用,影響或正在改變?nèi)藗兊娜粘I詈凸I(yè)生產(chǎn)方式。未來(lái),隨著技術(shù)的不斷演進(jìn),必將涌現(xiàn)出更多的產(chǎn)品和應(yīng)用,為我們的生活創(chuàng)造更大的便利和更廣闊的機(jī)會(huì)。
?
圖2:計(jì)算機(jī)視覺(jué)技術(shù)在各領(lǐng)域的應(yīng)用
1.3 計(jì)算機(jī)視覺(jué)任務(wù)的挑戰(zhàn)
對(duì)人類來(lái)說(shuō),識(shí)別貓和狗是件非常容易的事。但對(duì)計(jì)算機(jī)來(lái)說(shuō),即使是一個(gè)精通編程的高手,也很難輕松寫(xiě)出具有通用性的程序(比如:假設(shè)程序認(rèn)為體型大的是狗,體型小的是貓,但由于拍攝角度不同,可能一張圖片上貓占據(jù)的像素比狗還多)。計(jì)算機(jī)視覺(jué)任務(wù)在許多方面都具有挑戰(zhàn)性,物體外觀和所處環(huán)境往往變化很大,目標(biāo)被遮擋、目標(biāo)尺寸變化、目標(biāo)變形、背景嘈雜、環(huán)境光照變化。
除此之外,計(jì)算機(jī)視覺(jué)任務(wù)還面臨數(shù)據(jù)量有限、數(shù)據(jù)類別不均衡、速度實(shí)時(shí)需求等挑戰(zhàn)。
2 常見(jiàn)的計(jì)算機(jī)視覺(jué)任務(wù)簡(jiǎn)介和基礎(chǔ)概念
計(jì)算機(jī)視覺(jué)任務(wù)依賴于圖像特征(圖像信息),圖像特征的質(zhì)量在很大程度上決定了視覺(jué)系統(tǒng)的性能。傳統(tǒng)方法通常采用SIFT、HOG等算法提取圖像特征,再利用SVM等機(jī)器學(xué)習(xí)算法對(duì)這些特征進(jìn)一步處理來(lái)解決視覺(jué)任務(wù)。行人檢測(cè)就是判斷圖像或視頻序列中是否存在行人并給予精確定位,最早采用的方法是HOG特征提取+SVM分類器,檢測(cè)流程如下:
利用滑動(dòng)窗口對(duì)整張圖像進(jìn)行遍歷,獲得候選區(qū)域
提取候選區(qū)域的HOG特征
利用SVM分類器對(duì)特征圖進(jìn)行分類(判斷是否是人)
使用滑動(dòng)窗口會(huì)出現(xiàn)重復(fù)區(qū)域,利用NMS(非極大值)對(duì)重復(fù)的區(qū)域進(jìn)行過(guò)濾
分類的結(jié)果強(qiáng)依賴于手工特征提取方法,往往只有經(jīng)驗(yàn)豐富的研究者才能完成。
在這種背景下,基于神經(jīng)網(wǎng)絡(luò)的特征提取方法應(yīng)運(yùn)而生。Yann LeCun是1998年第一次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖像識(shí)別領(lǐng)域的,其主要邏輯是使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,并對(duì)圖像所屬類別進(jìn)行預(yù)測(cè),通過(guò)訓(xùn)練數(shù)據(jù)不斷調(diào)整網(wǎng)絡(luò)參數(shù),最終形成一套能自動(dòng)提取圖像特征并對(duì)這些特征進(jìn)行分類的網(wǎng)絡(luò)LeNet[1]。這一方法在手寫(xiě)數(shù)字識(shí)別任務(wù)上取得了極大的成功,但在接下來(lái)的時(shí)間里,卻沒(méi)有得到很好的發(fā)展。其主要原因一方面是數(shù)據(jù)集不完善,只能處理簡(jiǎn)單任務(wù),在大尺寸的數(shù)據(jù)上容易發(fā)生過(guò)擬合;另一方面是硬件瓶頸,網(wǎng)絡(luò)模型復(fù)雜時(shí),計(jì)算速度會(huì)特別慢。
2012年Alex Krizhevsky等人在提出了AlexNet[2], 并應(yīng)用在大尺寸圖片數(shù)據(jù)集ImageNet上,獲得2012年ImageNet比賽冠軍,極大的推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展。
如?圖所示。
?
圖5:早期的卷積神經(jīng)網(wǎng)絡(luò)處理圖像任務(wù)示意
全連接:也稱為多層感知機(jī)。
卷積:在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層的實(shí)現(xiàn)方式是數(shù)學(xué)中定義的互相關(guān)運(yùn)算。
池化:池化是使用某一位置的相鄰輸出的總體統(tǒng)計(jì)特征代替網(wǎng)絡(luò)在該位置的輸出。
dropout:是深度學(xué)習(xí)中一種常用的抑制過(guò)擬合的方法,通過(guò)隨機(jī)刪除一部分神經(jīng)元。
3 常見(jiàn)的計(jì)算機(jī)視覺(jué)任務(wù)快速實(shí)踐
目前,隨著互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,數(shù)據(jù)量呈現(xiàn)大規(guī)模的增長(zhǎng),越來(lái)越豐富的數(shù)據(jù)集不斷涌現(xiàn)。另外,得益于硬件能力的提升,計(jì)算機(jī)的算力也越來(lái)越強(qiáng)大。不斷有研究者將新的模型和算法應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域。由此催生了越來(lái)越豐富的模型結(jié)構(gòu)和更加準(zhǔn)確的精度,同時(shí)計(jì)算機(jī)視覺(jué)所處理的問(wèn)題也越來(lái)越豐富,包括分類、檢測(cè)、分割、場(chǎng)景描述、圖像生成和風(fēng)格變換等,甚至還不僅僅局限于2維圖片,包括視頻處理技術(shù)和3D視覺(jué)等,應(yīng)用的領(lǐng)域也越來(lái)越廣泛。目前主流的計(jì)算機(jī)視覺(jué)任務(wù),主要包括圖像分類、目標(biāo)檢測(cè)、圖像分割、OCR、視頻分析和圖像生成等。接下來(lái)我們介紹每個(gè)任務(wù),并通過(guò)PaddleHub工具快速進(jìn)行實(shí)踐。
首先安裝PaddleHub:
In [?]
!pip install paddlehub --upgrade -i https://mirror.baidu.com/pypi/simple
通過(guò)以下指令導(dǎo)入依賴包。
In [1]
import paddlehub as hub import cv2 from PIL import Image import matplotlib.pyplot as plt %matplotlib inline
3.1 圖像分類
圖像分類利用計(jì)算機(jī)對(duì)圖像進(jìn)行定量分析,把圖像或圖像中的像元或區(qū)域劃分為若干個(gè)類別中的某一種。
圖像分類是計(jì)算機(jī)視覺(jué)中重要的基本問(wèn)題,也是圖像檢測(cè)、圖像分割、物體跟蹤、行為分析等其他高層視覺(jué)任務(wù)的基礎(chǔ),在很多領(lǐng)域有廣泛應(yīng)用,包括安防領(lǐng)域的人臉識(shí)別和智能視頻分析等,交通領(lǐng)域的交通場(chǎng)景識(shí)別,互聯(lián)網(wǎng)領(lǐng)域基于內(nèi)容的圖像檢索和相冊(cè)自動(dòng)歸類,醫(yī)學(xué)領(lǐng)域的圖像識(shí)別等。
我們通過(guò)第一章講解的PaddleHub快速實(shí)現(xiàn)圖像分類,使用resnet50_vd_dishes模型識(shí)別如下美食圖片,更多模型及實(shí)現(xiàn)請(qǐng)參考PaddleHub模型庫(kù)
In [22]
classifier = hub.Module(name="resnet50_vd_dishes") result = classifier.classification(images=[cv2.imread('imgs/test1.jpg')]) print('result:{}'.format(result))
[2022-06-28 1755,454] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object
result:[{'白灼蝦': 0.4448080360889435}]
上面介紹了ResNet模型實(shí)現(xiàn)了美食分類,除此之外,圖像分類還包含豐富的模型,主要分為CNN骨干網(wǎng)絡(luò)模型和Transformer骨干網(wǎng)絡(luò)模型,每一類又分為部署到服務(wù)器端的高精度模型和部署到手機(jī)等移動(dòng)端平臺(tái)的輕量級(jí)系列模型,具有更快的預(yù)測(cè)速度,如?圖8?所示:
?
圖:圖像分類算法
注:如果想了解更多分類模型細(xì)節(jié),請(qǐng)參考圖像分類開(kāi)發(fā)套件PaddleClas
3.2 目標(biāo)檢測(cè)
對(duì)計(jì)算機(jī)而言,能夠“看到”的是圖像被編碼之后的數(shù)字,但它很難理解高層語(yǔ)義概念,比如圖像或者視頻幀中出現(xiàn)的目標(biāo)是人還是物體,更無(wú)法定位目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域。目標(biāo)檢測(cè)的主要目的是讓計(jì)算機(jī)可以自動(dòng)識(shí)別圖片或者視頻幀中所有目標(biāo)的類別,并在該目標(biāo)周圍繪制邊界框,標(biāo)示出每個(gè)目標(biāo)的位置。目標(biāo)檢測(cè)應(yīng)用場(chǎng)景覆蓋廣泛,如安全帽檢測(cè)、火災(zāi)煙霧檢測(cè)、人員摔倒檢測(cè)、電瓶車進(jìn)電梯檢測(cè)等等。
我們使用PaddleHub檢測(cè)模型yolov3_darknet53_vehicles進(jìn)行車輛檢測(cè)。
In [24]
vehicles_detector = hub.Module(name="yolov3_darknet53_vehicles") result = vehicles_detector.object_detection(images=[cv2.imread('imgs/test2.jpg')], visualization=True) # 結(jié)果保存在'yolov3_vehicles_detect_output/'目錄,可以觀察可視化結(jié)果 img = Image.open(result[0]['save_path']) plt.figure(figsize=(15,8)) plt.imshow(img) plt.show()
[2022-06-28 1517,573] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object
上面使用單階段目標(biāo)檢測(cè)模型YOLOv3實(shí)現(xiàn)了車輛檢測(cè),目前目標(biāo)檢測(cè)主要分為Anchor based(兩階段和單階段)、Anchor free模型、Transformer系列如?圖?所示:
?
圖:目標(biāo)檢測(cè)算法
其中Anchor是預(yù)先設(shè)定好比例的一組候選框集合,Anchor based方法就是使用Anchor提取候選目標(biāo)框,在特征圖上的每一個(gè)點(diǎn)對(duì)Anchor進(jìn)行分類和回歸。兩階段模型表示模型分為兩個(gè)階段,第一個(gè)階段使用anchor回歸候選目標(biāo)框,第二階段使用候選目標(biāo)框進(jìn)一步回歸和分類,輸出最終目標(biāo)框和對(duì)應(yīng)的類別。單階段模型無(wú)候選框提取過(guò)程,直接在輸出層回歸bbox的位置和類別,速度比兩階段模型塊,但是可能造成精度損失。由于需要手工設(shè)計(jì)Anchor,并且Anchor匹配對(duì)不同尺寸大小的物體不友好,因此發(fā)展出Anchor free模型,不再使用預(yù)先設(shè)定的anchor,通常通過(guò)預(yù)測(cè)目標(biāo)的中心或者角點(diǎn),對(duì)目標(biāo)進(jìn)行檢測(cè)。
注:如果想了解更多目標(biāo)檢測(cè)模型細(xì)節(jié),請(qǐng)參考目標(biāo)檢測(cè)開(kāi)發(fā)套件PaddleDetection
3.3 圖像分割
圖像分割指的是將數(shù)字圖像細(xì)分為多個(gè)圖像子區(qū)域的過(guò)程,即對(duì)圖像中的每個(gè)像素加標(biāo)簽,這一過(guò)程使得具有相同標(biāo)簽的像素具有某種共同視覺(jué)特性。圖像分割的目的是簡(jiǎn)化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像分割通常用于定位圖像中的物體和邊界(線,曲線等)。圖像分割的領(lǐng)域非常多,人像分割、車道線分割、無(wú)人車、地塊檢測(cè)、表計(jì)識(shí)別等等。
我們通過(guò)PaddleHub快速實(shí)現(xiàn)圖像分割,使用deeplabv3p_xception65_humanseg預(yù)訓(xùn)練模型進(jìn)行人像分割。
In [25]
human_seg = hub.Module(name="deeplabv3p_xception65_humanseg") result = human_seg.segmentation(images=[cv2.imread('./imgs/test3.jpg')], visualization=True) # 結(jié)果保存在'humanseg_output/'目錄,可以觀察可視化結(jié)果 img_ori = Image.open('./imgs/test3.jpg') img = Image.open(result[0]['save_path']) fig = plt.figure(figsize=(8,8)) # 顯示原圖 ax = fig.add_subplot(1,2,1) ax.imshow(img_ori) # 顯示人像分割圖 ax = fig.add_subplot(1,2,2) ax.imshow(img) plt.show()
[2022-06-28 1845,298] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object
上面使用deeplabv3p識(shí)別實(shí)現(xiàn)了人像分割,除此之外,圖像分割還包含如?圖所示算法:
?
圖12:圖像分割算法
?
注:如果想了解更多圖像分割模型細(xì)節(jié),請(qǐng)參考圖像分割開(kāi)發(fā)套件PaddleSeg
3.4 OCR
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是計(jì)算機(jī)視覺(jué)重要方向之一。傳統(tǒng)定義的OCR一般面向掃描文檔類對(duì)象,即文檔場(chǎng)景文字識(shí)別(Document Analysis & Recognition,DAR),現(xiàn)在我們常說(shuō)的OCR一般指場(chǎng)景文字識(shí)別(Scene Text Recognition,STR),主要面向自然場(chǎng)景。OCR技術(shù)有著豐富的應(yīng)用場(chǎng)景,如卡證票據(jù)信息抽取錄入審核、工廠自動(dòng)化、政府工作醫(yī)院等文檔電子化、在線教育等。
?
圖:文字識(shí)別示意圖
我們通過(guò)PaddleHub快速實(shí)現(xiàn)OCR任務(wù),使用chinese_ocr_db_crnn_mobile模型進(jìn)行文字識(shí)別。
In [24]
ocr = hub.Module(name="chinese_ocr_db_crnn_mobile") result = ocr.recognize_text(images=[cv2.imread('./imgs/test4.jpg')], visualization=True) # 結(jié)果保存在'ocr_result/'目錄,可以觀察可視化結(jié)果 img = Image.open(result[0]['save_path']) plt.figure(figsize=(20,20)) plt.imshow(img) plt.show()
[2022-06-28 1756,761] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object [2022-06-28 1757,665] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object
?
?
?
上面使用DBNet檢測(cè)模型和CRNN識(shí)別實(shí)現(xiàn)了文字識(shí)別,可以看到上述OCR實(shí)現(xiàn)過(guò)程分為檢測(cè)和識(shí)別2個(gè)模型,我們稱之為兩階段算法,除此之外還有端到端算法,使用一個(gè)模型同時(shí)完成文字檢測(cè)和文字識(shí)別。文檔分析能夠幫助開(kāi)發(fā)者更好地完成文檔理解相關(guān)任務(wù),通常OCR算法和文檔分析算法結(jié)合使用。
?
圖14:OCR算法
其中,版面分析識(shí)別文檔中的圖像、文本、標(biāo)題和表格等區(qū)域,然后對(duì)文本、標(biāo)題等區(qū)域進(jìn)行OCR的檢測(cè)識(shí)別,如?圖15(a)?所示。表格識(shí)別對(duì)文檔中表格區(qū)域進(jìn)行結(jié)構(gòu)化分析,最終結(jié)果輸出Excel文件,如?圖15(b)?所示。關(guān)鍵信息提取算法,將每個(gè)檢測(cè)到的文本區(qū)域分類為預(yù)定義的類別,如訂單ID、發(fā)票號(hào)碼,金額等,如?圖15(c)?所示。文檔視覺(jué)問(wèn)答DocVQA包括語(yǔ)義實(shí)體識(shí)別SER 和關(guān)系抽取RE任務(wù)。基于SER任務(wù),可以完成對(duì)圖像中的文本識(shí)別與分類;基于RE任務(wù),可以完成對(duì)圖象中的文本內(nèi)容的關(guān)系提取,如判斷問(wèn)題對(duì)(pair),如?圖15(d)?所示。PP-Structure包含了版面分析、表格識(shí)別、視覺(jué)問(wèn)答等功能,支持模型訓(xùn)練、測(cè)試等,如?圖15(e)?所示。
?
圖15:文檔分析算法
注:如果想了解更多OCR模型細(xì)節(jié),請(qǐng)參考OCR開(kāi)發(fā)套件PaddleOCR
3.5 視頻分析
視頻分析旨在通過(guò)智能分析技術(shù),自動(dòng)化地對(duì)視頻中的內(nèi)容進(jìn)行識(shí)別和解析。視頻是動(dòng)態(tài)的按照時(shí)間排序的圖片序列,然后圖片幀間有著密切的聯(lián)系,存在上下文聯(lián)系;視頻有音頻信息,部分視頻也有文本信息,視頻分析常見(jiàn)子任務(wù)如?圖16?所示:
?
圖16:視頻分析子任務(wù)示意圖
我們通過(guò)PaddleHub快速實(shí)現(xiàn)視頻分類任務(wù),使用videotag_tsn_lstm預(yù)訓(xùn)練模型
In [2]
videotag = hub.Module(name="videotag_tsn_lstm") result = videotag.classify(paths=["imgs/dance.mp4"]) print(result)
[2022-06-28 1527,292] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object
[{'path': 'imgs/dance.mp4', 'prediction': {'舞蹈': 0.8504236936569214}}]
上面使用TSN模型實(shí)現(xiàn)了視頻分類,根據(jù)視頻分析的應(yīng)用領(lǐng)域,分為以下算法,
?
圖18:視頻分析算法
注:如果想了解更多視頻分析模型細(xì)節(jié),請(qǐng)參考視頻分析開(kāi)發(fā)套件PaddleVideo
3.6 圖像生成
GAN的全稱是Generative Adversarial Networks,即生成對(duì)抗網(wǎng)絡(luò),由Ian J. Goodfellow等人提出。一般一個(gè)GAN網(wǎng)絡(luò)包括了一個(gè)生成器(Generator)和一個(gè)判別器(Discriminator),生成器用于生成越來(lái)越接近實(shí)際標(biāo)簽的數(shù)據(jù),判別器用來(lái)區(qū)分生成器的生成結(jié)果和實(shí)際標(biāo)簽。生成模型和判別模型構(gòu)成了一個(gè)動(dòng)態(tài)的“博弈過(guò)程”,最終的平衡點(diǎn)即納什均衡點(diǎn),即生成模型所生成數(shù)據(jù)(G(z))無(wú)限接近真實(shí)數(shù)據(jù)(x)。GAN模型應(yīng)用也非常廣泛,可應(yīng)用于圖像生成、風(fēng)格遷移、超分辨率、影像上色、人臉屬性編輯、人臉融合、動(dòng)作遷移等。
In [21]
import cv2 import paddlehub as hub model = hub.Module(name='UGATIT_100w') # 結(jié)果保存在'output/'目錄,可以觀察可視化結(jié)果 result = model.style_transfer(images=[cv2.imread('imgs/test6.jpg')], visualization=True) img_ori = Image.open('./imgs/test6.jpg') img = cv2.cvtColor(result[0], cv2.COLOR_BGR2RGB) img = Image.fromarray(img) fig = plt.figure(figsize=(8,8)) # 顯示原圖 ax = fig.add_subplot(1,2,1) ax.imshow(img_ori) # 顯示生成漫畫(huà)圖 ax = fig.add_subplot(1,2,2) ax.imshow(img) plt.show()
[2022-06-28 1724,765] [ WARNING] - The _initialize method in HubModule will soon be deprecated, you can use the __init__() to handle the initialization of the object
上面使用U-GAT-IT模型實(shí)現(xiàn)了人像動(dòng)漫化,根據(jù)GAN的應(yīng)用領(lǐng)域,分為以下算法,
?
圖20:圖像生成算法
注:如果想了解更多圖像生成模型細(xì)節(jié),請(qǐng)參考圖像生成開(kāi)發(fā)套件PaddleGAN
4 總結(jié)
本章我們主要介紹了計(jì)算機(jī)視覺(jué)概念、應(yīng)用場(chǎng)景和挑戰(zhàn),然后介紹了目前常見(jiàn)的計(jì)算機(jī)視覺(jué)任務(wù)(圖像分類、目標(biāo)檢測(cè)、圖像分割、OCR、視頻分析、圖像生成),并通過(guò)PaddleHub快速實(shí)現(xiàn)。
編輯:黃飛
?
評(píng)論