本文由華為云資深產品專家左雯在LiveVideoStackCon2020線上峰會的演講內容整理而成,本文從視頻編解碼技術的趨勢、難點和挑戰以及華為云視頻產品的編解碼關鍵技術實踐與成果兩方面介紹下一代視頻編解碼技術優化應用的探索。
大家下午好,非常榮幸參加LiveVideoStack首屆音視頻線上峰會。先自我介紹一下,我叫左雯,來自華為云,是云視頻服務的產品經理。在做產品經理之前,一直從事視頻編解碼算法研究優化、轉碼產品架構設計等工作!今天參加這個專題目的有兩個,一個是想通過這次峰會,向大家分享一下華為云視頻對下一代視頻編碼技術發展的想法和應用成果,另一個是像各位專家學習,相互交流,促進下一代視頻編碼技術的快速發展,推動云視頻這個行業的發展。
今天分享的主題包括三個部分,首先是華為云視頻對視頻行業發展趨勢的一些看法,以及這些趨勢對下一代視頻編碼技術提出的挑戰;其次從標準角度來介紹下一代視頻編碼技術以及華為相關工作;最后從云視頻應用角度來具體介紹華為云在視頻編碼技術上的一些實踐和探索。希望能給大家帶來干貨和技術啟發。
1
視頻行業趨勢
5G、云、AI已經成為ICT行業甚至是整個社會的發展趨勢,促使整個視頻行業需求和技術不斷演進,推動整個視頻行業不斷升級。如圖所示,視頻生命周期的每個環節都在更新升級,包括視頻生產、視頻處理、視頻傳輸和視頻消費。
視頻生產:多源數據的采集,包括超高清、VR、自由視角、3D建模和視頻渲染。
視頻處理:基于AI讓視頻處理更實時、智能和準確,包括各種編碼方式。
視頻傳輸:超低時延的傳輸,云邊協同等等。
視頻消費:智能終端的深度結合提供視頻服務的最佳體驗。
視頻行業本質是對媒體數據的處理,背后是算力、存儲、網絡、AI的支撐,同時視頻行業又推動著5G、云、AI的不斷前行,相輔相成!
視頻演進帶動了算力、存儲、帶寬需求的大幅增長。簡單來看,視頻分辨率越來越高,從高清到超高清再到8K/VR。算力增長 24倍,存儲增長12倍,帶寬增長 20倍。這些需求通過云,也只有通過云才能很好的滿足,實現高質量的視頻體驗。云原生視頻是行業趨勢,視頻將成為云的基礎服務能力。
前面說的是行業的整體趨勢,下面說一下具體場景?;ヂ摼W視頻發展已經歷兩個階段,第一階段從08年到13年,以長視頻VOD、點播觀看為熱點;第二階段,從13年到19年,也就是去年,其實還在延續,以直播、短視頻為熱點;第三階段,也就是下一代會以什么為熱點?我們認為因為5G、云、AI的推動,視頻將進入實時互動、VR/AR時代。
互動視頻方式從IM向實時音視頻過渡。直播連麥,主播PK,直播帶貨,視頻分發方式的升級,百毫秒級超低時延實時互動視頻成為趨勢。
VR/AR,360度視角帶來沉浸式體驗革命,用戶從看視頻向玩視頻過渡,體驗提升的同時,視頻傳輸能力也從兆級向十兆甚至百兆級單流帶寬提升。
RTC實時音視頻會成為5G時代基礎設施的核心控制點,RTC應用很廣泛,它的市場年增長率是30%左右,而且這項技術不僅能賦能直播、游戲等泛娛樂行業,更能在在線醫療、教育、金融等大視頻行業滲透?,F有的實時音視頻市場正處于爆發期,玩家很多,但由于它是非云廠商,難以持續發展。原因之一是它的技術門檻比較高,特別是像音視頻編碼或者整個RTC網絡的構建,另一點是目前各家均采用私有協議的方式接入,各家互通、客戶的自由切換都比較困難。在RTC視頻業務產品上,我們認為音視頻編碼處理將是各家構建技術壁壘和性能差異化競爭力的關鍵之一。
另外一個應用場景就是Cloud VR,我們一直認為VR是5G技術發展下的關鍵場景。VR發展是一波三折的,但在目前來看,之前碰到的一些問題正在逐漸改善。從終端的角度來看,之前的終端很貴,但是目前千元終端機已經逐漸來臨,而且體驗也會越來越好。除了設備終端,VR此前還面臨內容缺失的重大問題,而VR直播很大程度上緩解了內容缺乏的問題。 雖然困境在逐步改善,但VR目前還面臨著新的問題。互聯網VR業務很難形成商業閉環,主要原因在于VR業務帶來了收入增加,但與此同時帶寬增加更多,VR追求的高質量體驗需要通過更高帶寬來實現,高帶寬勢必會帶來高成本,而高成本就會導致商業無法閉環。在這樣的前提下,很多玩家都會通過降低體驗來開展VR,比如說內容采用4K以下,碼率采用10兆以下,終端采用卡片機來體驗VR,雖然這樣可以將VR的業務打通,但體驗效果是很差的,也導致付費用戶非常少,產業發展比較緩慢。所以在VR的發展上,我們認為通過視頻壓縮編碼以降低帶寬是關鍵,是可以幫助實現商業閉環的一個環節。
從前面講述視頻行業趨勢不難看出,用戶體驗升級、視頻產業升級、商業成本等驅動著視頻全方位升級,分辨率從高清到8K,幀頻從30幀到120幀,視場角從不到90度到360度,SDR到HDR等,這些參數升級推動視頻壓縮編碼技術不斷演進,追求壓縮比是永恒不變的!
另外,前車之鑒,HEVC/H.265,其實是很優秀的編碼技術,但因為前期不友好的專利政策,市場占有率一直不高13%。還好目前有所好轉!整個行業急需壓縮比更高、生態更完善、專利政策更合理的視頻編碼技術。
提升壓縮比有兩條路線,這也是各廠商正在做的。
標準技術路線,作為基礎內核,H.266、AV1、AVS3、AI編碼
非標技術路線,依賴基礎標準,結合人眼感知特征,感知編碼、內容編碼、ROI編碼
2
下一代視頻編碼技術
下面將從這兩個角度來介紹華為云視頻在下一代視頻編碼技術上的一些工作。這些技術得力于華為2012媒體技術院全力支持。 2.1 下一代視頻編碼標準技術
從上圖看出,下一代的視頻編碼標準大概分為三個陣營或者三個類型:
國際標準:由MPEG、VVC聯合推動的像VVC/H.266還有EVC;
國內標準:國內標準組織正在推出或已經推出的AVS3的phase1、AVS3的phase2,兩者主要差別在于AVS3的第1階段標準瞄準H.266,第二階段的標準則是瞄準未來,可能會加入一些智能編碼的技術;
谷歌牽頭的AOM聯盟推出的AV1,是一個開源技術。
下一代的視頻編碼技術仍是采用傳統的演進思路——在經典架構上做模塊增強。在H.266CFP時,華為聯合其他幾家公司提了P41提案,在PSNR和MOS評估方面都是排名第一,這個提案也是后面基礎。華為在VVC里的核心專利數量已屬于第一陣營,這是一個了不起的成就,也說明了國內的視頻壓縮編碼基礎研究實際上不弱于歐美傳統的公司。
上圖是以VVC為例,對其新增的增強工具進行盤點??v軸是每個工具的壓縮收益,橫軸是每個工具編解碼復雜度,編碼復雜度的權重可能會更高一點。VVC在塊劃分、幀內預測、幀間預測、熵編碼、變換量化等多個模塊上進行了增強,其中主要的增強是幀內、幀間預測、塊劃分、濾波的增強以及機器學習工具演進帶來的收益。VVC暫時沒有引入深度學習這一類編碼工具。 圖中還有三個用紅圈標出來的工具,這是VVC中公認trade off比較好的三個工具點。藍色的是ALF,這是大家比較熟悉的自適應環路濾波,其實它在H.265的時代就已經有了, H.266將它引入標準中;綠色的是仿射運動預測,這個主要是由華為提出的;橙色的是量化技術。
EVC標準的提出某種程度是因為H.265/H.266的專利政策不友好,有可能導致H.266的落地都比較困難。MPEG希望能通過一個新的專利友好的標準來推動落地,同時也促使改變H.266、H.265的專利授權政策。EVC由華為、三星、高通等共同提出推動,華為在這里面加入了很多技術。在標準立項時期望它比H.265的壓縮性能提升20%,實測在4K娛樂視頻上相比H.265壓縮效率提升達30%以上,目前已經進入了最終的標準投票階段。 AVS3是國內提出的標準,它的phase1是瞄準H.266標準的,并且在2019年3月份就已經制定完成率先推出,在2019年9月份,華為海思也同步推出了AVS3 8K的解碼芯片,AVS3相對H.265性能提升了20%以上,并且針對娛樂視頻和監控視頻做了很多針對性的設計,性能上還可進一步提升。
H.266實際已經基本定稿,它的壓縮效率在4K視頻場景下相較于H.265能提升40%左右,其解碼復雜度相對提升60%,目前看最大的問題還是專利政策不夠透明,而且專利費可能比較高,推廣節奏可能相對比較慢。
EVC也基本定稿,而且其壓縮效率也能提升30%左右,解碼復雜度相對H.265增加60%。其專利收費可能相對比較低,第二是他的專利收費比較透明和明確,目前主要依靠三星、華為、高通來做產業的推動和生態的構建。
AVS3在2019年3月份推出,在性能上還是有保證的,壓縮效率能夠提升25%,復雜度增加相對較低,其專利收費也是比較低的,正通過互聯網等行業做產業的推動和生態構建,目前實際上有很多聯盟和和公司正在做推動,我們也希望AVS3盡快落地。
表格中沒有列舉AV1的數據,這主要是因為它和其他三個標準不太一樣,AV1開源軟件實際上是瞄準商用化去做的,大家也比較清楚其壓縮效率和解碼復雜度。AV1有個很大的優勢就是沒有專利費,這是AOM聯盟的承諾。在產業落地方面AV1做的很好,生態構建走的較前。
2.2 AI編碼 下一代視頻編碼標準還有一個趨勢就是AI編碼,這一塊實際上從HEVC、VVC標準制定就有提出,但因為考慮計算復雜度以及AI硬件普適性,都暫時擱置了。但這是個技術趨勢。
AI編碼包括兩個演進思路,第一個是全新架構,類似于圖像編碼,實際上AI的圖像編碼已經取得了不錯的成效,谷歌牽頭的AI圖像編碼技術都已經得到了很好地應用,但針對視頻中的應用還在探索過程中。所謂的全新架構,就是不用傳統架構,視頻進入黑盒后會得出一個壓縮過的視頻,這個視頻可能沒有塊劃分,也沒有各種其他的方式,它的壓縮效率會非常高,但這一切還處于研究的過程中。
另外一個思路是基于經典架構,對每個架構里的模塊做增強。例如針對塊劃分、變換、矢量量化、幀內預測做不同的AI網絡適應和增強。實際上華為也在做這方面的研究,未來可能會提出一些AI編碼方面的論文或提案。并且我們認為AI編碼的這兩種思路,最終將是融合設計的過程,不會呈相互獨立的狀態。
3
華為云視頻應用和實踐
3.1 云視頻簡介 上面簡單介紹了下一代視頻編碼標準技術,下面介紹一下從實際商用及非標角度,介紹一下華為云視頻在視頻編碼技術上的應用和實踐。
首先介紹一下華為云視頻,華為云視頻是從2017年開始構建的,目前包括兩大類業務,一種是比較傳統的直播、點播、媒體處理以及監控業務,另一種是整個行業正在新晉的服務,比如RTC、VR/AR以及超高清制播。華為云視頻面向很多的場景,例如娛樂直播、短視頻、在線教育、企業直播、4K直播、4K制作等等,我們致力于幫助行業客戶、伙伴、開發者、ISV快速上線應用,并幫他們構建差異化的競爭力,實現商業閉環。這里需要重點提一下RTC,RTC是華為云視頻對下一代視頻的理解并作出了實際的推動,針對RTC,我們重點構建超低時延、音視頻質量等差異化競爭力。 3.2 視頻編碼技術 3.2.1 視頻編碼框架
結合今天的主題,下面重點講解華為云視頻在視頻編碼技術上的一些工作。這些技術得力于華為2012媒體技術院全力支持。上圖比較直觀地表達了這點。圖中黃框表示了編碼器的內核,所有的華為云視頻編碼的編碼能力、編碼服務都是基于編碼內核。編碼內核采用了一個標準的編碼器,類似于前面提到的H.264、H.265、AVS3、H.266或者EVC這一類,在這個編碼內核的基礎上,我們面向不同的場景做了不同的編碼技術的優化和實踐。比如 面向RTC實時音視頻場景,采用低時延編碼技術;面向VR場景,采用FOV tile編碼;面向多視角場景,采用空間云邊協同編碼;面向監控場景,采用智能語義編碼;面向直播、點播,采用感知編碼和畫質增強等;另外,華為云視頻借助鯤鵬、昇騰兩大專有硬件,加速視頻編轉碼效率。鯤鵬主要面向CPU這類計算,昇騰主要面向AI方面的加速。 3.2.2 標準編碼內核
接下來分別介紹一下視頻編碼的技術,第一是編碼內核,華為云在商用編碼器上面也有很多的技術積累。比如說近幾年在MSU的大賽上,HW265編碼器連續兩年獲得多項測評的第1名,今年我們也會向MSU推出新的編碼器。 3.2.3 高清低碼
第二個技術是高清低碼,高清低碼目前在各個廠商或者商業領域里是大家比較默認的技術,也就是說在基于標準編碼內核的基礎上,能降低碼率的同時保證主觀質量沒有下降,但實際上高清低碼理論可行性是現有視頻編碼是基于香農定理,它的率失真模型都是連續的,但是人眼視覺模型是階梯性非連續的,在這個階梯上存在一個降碼率的空間。 高清低碼一般情況下包括三個模塊,第一是基于人眼JND模型,就是說如何找出JND,第二是基于JND去做感知編碼,第三就是通過感知編碼來控制標準編碼內核輸出,在主觀質量不變的情況下大幅降低碼率。華為云視頻在這方面做了很多的工作,目前針對不同的應用場景,能達到30~50%的碼率降低。
高清低碼技術現在也走到了一個瓶頸期,原有高清低碼的考慮僅來源于編碼與傳輸信道,隨著AI技術的發展,是否還有進一步的發展空間?華為提出了一種新的思路:在原有的率失真模型上,加入一個接收端(解碼端)復雜度的因子,也就是在發送端主動退化,把它通過時域或者空域的下采樣變成一個相對數據量比較小的視頻,這樣做使得編碼的碼率相對更低,達到有效降低碼率的目標。通過一些輔助信息再加上低碼率、低分辨率的編碼碼流,在接收端通過AI技術進行超分、插幀或者是增強,將視頻還原,如此整個鏈路上傳輸的碼率會大幅下降,我們初步試驗發現至少能降低60%以上的碼率。 3.2.4 超低時延編碼
RTC場景是我們面向下一代視頻產業重點打造的服務能力,RTC場景下主要是超低時延的編碼,我們提出了一個綜合的超低時延方案,比如編碼和渲染聯合優化、編碼的內核以及分層編碼和信源信道協同等技術手段,面向不同的實時場景會做不同的組合或者應用,我們初步試驗發現在1080P這種場景下進行編碼和解碼,整體的時延能達到十毫秒級別。 3.2.5 VR FOV編碼
面向VR場景,特別是面向360°場景,我們提出來FOV TWS的編碼技術。這個技術原理是將高分辨率的全景視頻分片,多個FOV的小分片加上一路4K的背景流,這樣4K終端的播放器就能通過相應的視角FOV分片和4K全景背景流實現8K VR全景視頻播放,同時還能保證MTP,不會出現眩暈感。該技術已經寫入OMAF的標準。整體體驗上也得到了用戶的認可。 3.2.6 智能語義編碼
當面向監控場景的時候,我們提出了一種智能語義的編碼,主要通過背景建模加上視頻內容和運動分析,再加上端側的一些實時超分、插幀來構建智能語義編碼的方案。監控場景的畫面往往有很多細節,各種機器分析的識別率不能降低,如果壓的太狠,識別率可能就會下降。初步的原型結果顯示能做到在人和機器的識別率都不降低的前提下,達到70%以上的碼率節省。 3.2.7 空間視頻云邊協同編碼
另外一個技術是空間視頻編碼,所謂空間視頻就是是自由視角或多視角,這也是以后技術發展的一個方向。人們不再滿足于一個固定視角視頻觀看,希望多視點或者自由視角的觀看視頻。在空間視頻的編解碼當中,我們提出一種云邊協同編碼,通過這種編碼可以在邊緣非常短的時間內按需動態的生成任意時刻的切換流,大幅減少一般方案中切換流的碼率,初步試驗發現至少能降低60%左右的帶寬成本。 3.2.8 AI視頻增強
視頻質量、視頻碼率是視頻產業最關鍵的兩個指標。前面講的技術,不管是標準的技術、還是非標的技術,都是追求在同等畫質的前提下,如何降低碼率。
硬幣的另一面則是,在同等碼率下,如何追求視頻主觀體驗質量。我們在這方面也做了很多嘗試,根據不同的場景特征,基于云端、終端AI能力,從分辨率、幀頻動態范圍等維度對視頻進行修復、增強和重建。并且考慮真實場景中往往是包含多種混合失真的等因素,我們提出一種面向混合失真的多任務視頻增強框架,能夠很好地適應不同場景和不同需求。
以上內容介紹的是華為云視頻在視頻編解碼上的一些實踐和探索,希望能帶給大家一些干貨或者啟發。謝謝大家!
-
視頻編碼
+關注
關注
2文章
114瀏覽量
21096 -
云視頻
+關注
關注
0文章
28瀏覽量
4721 -
華為云
+關注
關注
3文章
2706瀏覽量
17657
原文標題:下一代視頻編碼技術的云視頻應用探索
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
納米壓印技術:開創下一代光刻的新篇章

評論