在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

“多”維演進(jìn):智能化編碼架構(gòu)的研究與實(shí)踐

LiveVideoStack ? 來源:LiveVideoStack ? 2023-08-15 16:37 ? 次閱讀

CloudImagine

大家好,我是阿里云視頻云的陳高星,今天和大家分享的主題是“多”維演進(jìn):智能化編碼架構(gòu)的研究與實(shí)踐。 本次分享分為四部分:首先是視頻編碼與增強(qiáng)方向的業(yè)界趨勢,其次是對在該背景下衍生的阿里云視頻云智能編碼架構(gòu)進(jìn)行介紹,以及其中關(guān)于“多”維演進(jìn)的技術(shù)細(xì)節(jié),最后是我們對于智能編碼的一些思考和探索。

01

視頻編碼與增強(qiáng)方向的業(yè)界趨勢

e83f14f8-3aff-11ee-9e74-dac502259ad0.png

首先介紹視頻編碼與增強(qiáng)方向的業(yè)界趨勢。視頻技術(shù)發(fā)展的趨勢始終在追求更高清、更實(shí)時、更互動、更低成本以及更智能。 過去幾年直至2022年,雖然從“高清化”的角度圍繞AR/VR、沉浸式8K這些概念的話題熱度有所降低,但隨著2023年上半年蘋果VisionPro的推出,VR的熱度再次升高。除概念化炒作外,視頻“高清化”也是實(shí)實(shí)在在的趨勢。舉個例子,相較于2018年世界杯直播,可以發(fā)現(xiàn)新一屆2022年直播視頻的碼率和分辨率明顯提升,預(yù)計下一屆還會進(jìn)一步提升。 圍繞更“高清化”的趨勢,我們能看到近年各大企業(yè)都在陸續(xù)推出自研的下一代編碼器,包括266、AV1,甚至是私有標(biāo)準(zhǔn)的編碼器。同時,我們也在智能編碼和增強(qiáng)上看到不少的需求。為了降低“高清化”帶來的成本壓力,視頻編碼的軟硬異構(gòu)方案成為熱點(diǎn),包括阿里云的倚天710 ARM異構(gòu)和多個友商在ASIC硬件轉(zhuǎn)碼方案上的布局。 從“低時延”的角度,隨著5G基礎(chǔ)設(shè)施的普及,毫秒級的延遲技術(shù)逐步趨于成熟,并在多個場景得到了應(yīng)用和落地。阿里云視頻云支持的2022年6月央視云考古節(jié)目《三星堆奇幻之旅》以及2023年春晚推出的央博“新春云廟會”都用到了相關(guān)的超低延時云渲染技術(shù)。在2022年世界杯期間,超低時延的直播RTS也在逐步上量。當(dāng)然,以大趨勢來看,目前“超低延時”直播僅在個別領(lǐng)域和場景是剛需,真正的爆發(fā)還需依賴更多的實(shí)際應(yīng)用場景。 在更“智能化”方面,我們觀察到在編碼內(nèi)核的基礎(chǔ)上,工業(yè)界持續(xù)聚焦利用AI能力提升視頻編碼壓縮率,包括運(yùn)用視頻編碼和處理的結(jié)合,視頻編碼與質(zhì)量評價結(jié)合,視頻編碼與AI生成結(jié)合,以及端云聯(lián)合優(yōu)化來持續(xù)提升視頻編碼主客觀壓縮率。在近年來大家關(guān)注的“視頻增強(qiáng)”和“內(nèi)容自適應(yīng)編碼”等領(lǐng)域,也能看到基于GAN的細(xì)節(jié)修復(fù)生成技術(shù)不斷落地。 隨著2023年ChatGPT和大語言模型的爆發(fā),AIGC成為目前的技術(shù)熱點(diǎn)。MidJourney等一眾繪圖軟件的風(fēng)靡,以及Stable Diffusion等開源模型的快速發(fā)展讓我們看到了AIGC在圖片領(lǐng)域的巨大實(shí)力,同時文生視頻技術(shù)也在逐步興起。

e87f51f8-3aff-11ee-9e74-dac502259ad0.png

那么,伴隨著更高清、更實(shí)時、更高效、更智能的編碼需求,我們也面臨許多技術(shù)與當(dāng)前需求的矛盾。 隨著AR/VR時代的到來,視頻的分辨率、幀率以及色域都會不斷的擴(kuò)大,單一視頻的信息量將會成倍的增加。低時延意味著對編碼速度的更高要求,而CPU芯片處理能力不再遵循摩爾定律快速增長,清晰度、帶寬、計算成本和編碼速度的矛盾會越來越嚴(yán)重,主要體現(xiàn)為以下四點(diǎn): 第一,編碼標(biāo)準(zhǔn)升級速度遠(yuǎn)慢于視頻信息量膨脹的速度。編碼標(biāo)準(zhǔn)歷經(jīng)過去十年的發(fā)展僅帶來了50%壓縮率的提升,這遠(yuǎn)遠(yuǎn)落后于視頻化和體驗升級帶來的流量增長。 第二,新編碼標(biāo)準(zhǔn)壓縮率的提升速度遠(yuǎn)低于視頻幀率、分辨率提升的速度。從720P 30fps到8k 60fps,視頻信息量將增加72倍,這與編碼標(biāo)準(zhǔn)的發(fā)展速度出現(xiàn)了較大矛盾。 第三,新編碼標(biāo)準(zhǔn)復(fù)雜度的增加遠(yuǎn)高于CPU性能增長。從264到266,每一代編碼標(biāo)準(zhǔn)相較上代大多增加10倍以上的復(fù)雜度,遠(yuǎn)高于CPU處理能力的增加。 第四,單一編碼標(biāo)準(zhǔn)難以覆蓋多種應(yīng)用需求。隨著視頻在更多應(yīng)用場景的擴(kuò)展深化,如VR場景所需的沉浸式編碼標(biāo)準(zhǔn),以及面向機(jī)器視覺任務(wù)的VCM視頻編碼標(biāo)準(zhǔn),更需要對編碼標(biāo)準(zhǔn)進(jìn)行特定場景下的優(yōu)化。

e8b2aa58-3aff-11ee-9e74-dac502259ad0.png

在以上看似難以調(diào)和的矛盾背景下,如果想實(shí)現(xiàn)“魚與熊掌兼得”,以下五個問題值得討論。 首先,除了碼率和質(zhì)量,視頻編碼還可以關(guān)注哪些指標(biāo)?例如不同內(nèi)容的質(zhì)量穩(wěn)定性,保證序列級或者是序列片段,甚至是序列到Gop之間的質(zhì)量穩(wěn)定性,從客觀到主觀上,以及從資源消耗的角度去考慮編碼復(fù)雜度的穩(wěn)定性。 第二,如何用好現(xiàn)有的編碼標(biāo)準(zhǔn)?現(xiàn)有的各種標(biāo)準(zhǔn),例如前述的VR沉浸式標(biāo)準(zhǔn)、 VCM等,雖然具有開源代碼,但從多年來MSU比賽的結(jié)果可以看到,它們還存在很大優(yōu)化空間。因此,研發(fā)多標(biāo)準(zhǔn)的編碼器也是業(yè)界一直關(guān)注和研究的方向。 第三,視頻編碼標(biāo)準(zhǔn)本身覆蓋不到的維度有哪些?其實(shí)從每一代的標(biāo)準(zhǔn)來看,視頻編碼追求的目標(biāo)都是盡可能與“源”一致,所以多數(shù)情況下純編碼器優(yōu)化使用有源的客觀指標(biāo)作為參考標(biāo)準(zhǔn),但這種方式對低畫質(zhì)場景并不適用。 鑒于編碼后的視頻還是為人眼觀看服務(wù)的,雖然人眼主觀評價較為耗時費(fèi)力,但實(shí)際上它是能夠給客戶帶來價值的方向。因此,將人眼評價引入視頻智能增強(qiáng)來提升畫質(zhì),也是我們的主要研究方向之一。 第四,在編碼標(biāo)準(zhǔn)上,現(xiàn)有標(biāo)準(zhǔn)對視覺冗余的挖掘和場景自適應(yīng)能力還有不足。現(xiàn)有標(biāo)準(zhǔn)其實(shí)只定義了大概的工具集以及解碼器,但是如果能夠引入多級的自適應(yīng)編碼,進(jìn)一步挖掘各個模塊之間的“耦合”能力,實(shí)際上可以進(jìn)一步提升編碼器的質(zhì)量上限。 第五,如何打破資源堆疊,置換視頻壓縮效率提升的技術(shù)思維慣性。從復(fù)雜度的角度,其實(shí)我們不用單純從硬件角度考慮,例如:僅通過硬件資源的堆疊的實(shí)現(xiàn)編碼普惠的效果。我們可以通過多平臺的支持,比如與底層架構(gòu)的深度耦合或者將部分模塊硬化的方式,兼顧軟件的“靈活性”和硬件的“高效性”,達(dá)到算法普惠化。 因此阿里云視頻云針對以上五個問題的解法就是右側(cè)的五大“多”維。

02

智能編碼架構(gòu)介紹

e8d694fe-3aff-11ee-9e74-dac502259ad0.png

如圖所示,我們的智能編碼架構(gòu)主要體現(xiàn)在五個維度。 傳統(tǒng)編碼架構(gòu)的編碼流程是從視頻源開始,通過可選的視頻處理模塊進(jìn)入編碼的碼控和內(nèi)核部分,然后輸出碼流。 智能編碼架構(gòu)最顯著的特點(diǎn)是“多級自適應(yīng)編碼能力”。它會對視頻源進(jìn)行分析,基于源評估編碼流程中的處理、碼控、內(nèi)核等環(huán)節(jié)對于最終輸出的影響,自適應(yīng)決策模塊內(nèi)部的參數(shù)和工具組合。 同時,為了實(shí)現(xiàn)多級自適應(yīng)編碼,我們在視頻處理、碼控和內(nèi)核上提供了多方位的編碼工具和能力。最后,這個編碼架構(gòu)需要能夠自適應(yīng)的模塊化,使其能夠自適應(yīng)地從軟編到不同硬編平臺。

e913e8fe-3aff-11ee-9e74-dac502259ad0.png

五個維度具體的原子能力如上圖所示。多級自適應(yīng)編碼除業(yè)務(wù)場景和視頻熱度等分類外,還包括基于場景內(nèi)容和片源質(zhì)量的語義級自適應(yīng);而內(nèi)容自適應(yīng)則包含:基于不同編碼目標(biāo)的前處理Pre-coding、以及基于人眼的JND、ROI等;工具自適應(yīng)則是聯(lián)合各個編碼模塊,包括碼控和內(nèi)核模塊。 在視頻處理方面,“多”維智能視頻增強(qiáng)包括畫質(zhì)增強(qiáng)、視頻降噪、細(xì)節(jié)修復(fù)生成、去壓縮失真以及時域和空域的SR和FRC技術(shù)。 在編碼碼控上,多目標(biāo)編碼能力兼容在除碼率、質(zhì)量外,還包括針對目標(biāo)編碼復(fù)雜度、質(zhì)量波動,以及一些CV任務(wù)的多目標(biāo)編碼兼容。 在內(nèi)核上,我們有自研的多標(biāo)準(zhǔn)編碼器,覆蓋264、265、266、AVS3、AV1以及VCM編碼器。 在多平臺支持方面,我們的架構(gòu)能夠支持從軟編的X86、ARM架構(gòu)到部分使用硬編的聯(lián)合優(yōu)化平臺。

03

智能編碼架構(gòu)的“多”維演進(jìn)

e9575526-3aff-11ee-9e74-dac502259ad0.png

接下來,將對智能編碼架構(gòu)的“多”維演進(jìn)進(jìn)行詳細(xì)介紹。首先是多級自適應(yīng)編碼,它的關(guān)鍵是基于片源質(zhì)量的內(nèi)容自適應(yīng),因為片源質(zhì)量是視頻處理和編碼非常重要的決策特征。 我們基于大量客戶場景數(shù)據(jù),對片源進(jìn)行多個維度的分類,除了片源的語義級質(zhì)量之外,還有如上圖所示的對時空域復(fù)雜度的評價,考慮編碼影響進(jìn)行R/D斜率分析,以及針對序列級中的不同序列進(jìn)行智能的碼率分配。 質(zhì)量分析模塊至關(guān)重要,在視頻質(zhì)量方面,充分了解視頻是否有噪聲、壓縮或者傳輸帶來的質(zhì)量損失對后續(xù)的處理和增強(qiáng)將起到關(guān)鍵指導(dǎo)作用。特別是在需要使用一些低成本的增強(qiáng)和編碼方案時,我們很難用一個模塊去自適應(yīng)處理所有的質(zhì)量退化。因此,加入質(zhì)量分析模塊可以幫助我們更好的獲取編碼的質(zhì)量上限。對于質(zhì)量好的源,能有少量或者適中的增強(qiáng)效果。對于質(zhì)量差的源,可以提升更多的質(zhì)量。 另外,視頻源的質(zhì)量也會影響編碼的決策。如果視頻源的某一片段比較復(fù)雜,那在低碼率的情況下很可能會出現(xiàn)大量的“塊效應(yīng)”,因此在該場景下我們會傾向于分配更多的碼率。

e9bcf160-3aff-11ee-9e74-dac502259ad0.png

內(nèi)容自適應(yīng)的另一部分是基于人眼的JND和saliency map。JND對工業(yè)界來說是一個非常重要的方向。傳統(tǒng)的視頻編碼是基于信息論的,它從預(yù)測結(jié)構(gòu)的角度減小時域冗余、空間冗余、統(tǒng)計冗余等的冗余,從而實(shí)現(xiàn)對視頻的壓縮,但對視覺冗余的挖掘還遠(yuǎn)遠(yuǎn)不夠。 JND的基本原理如上圖所示,傳統(tǒng)視頻編碼使用的RDO曲線是連續(xù)的凸曲線,但人眼實(shí)際感知到的是非連續(xù)的階梯狀線。如果利用階梯狀曲線替換凸曲線,在相同失真的情況下可以使用更少的碼率。 傳統(tǒng)的JND方案分為“自頂向下”和“自底向上”兩種方式。我們更多選擇“自底向上”方式,對視覺皮層的視覺特征來進(jìn)行表征,如顏色、亮度、對比度、運(yùn)動等方式。從空域上考慮亮度掩蔽、對比度掩蔽,從時域上考慮基于運(yùn)動的掩蔽。 我們會引入深度學(xué)習(xí)方法預(yù)測JND模塊對人眼主觀的影響,然后結(jié)合編碼內(nèi)部的碼控模塊計算當(dāng)前每一塊可以進(jìn)一步擴(kuò)大量化步長的空間。目前,我們的JND模塊在通用場景,同等主觀下,能節(jié)省30%以上碼率,在一些垂直場景下甚至可以節(jié)省50%以上。

e9df6bdc-3aff-11ee-9e74-dac502259ad0.png

除了JND, 挖掘人眼視覺冗余的另一個重要技術(shù)就是saliency map。我們在saliency map上布局了兩個方向:一是低成本的基于人臉的ROI,為了能用在更普惠的直播以及超低時延場景,我們針對人臉開發(fā)了該工具。它結(jié)合檢測與跟蹤算法,對于檢測到的人臉區(qū)域綜合JND以及周圍的像素塊進(jìn)行調(diào)整,保證在提高主觀畫質(zhì)的同時降低ROI區(qū)域和非ROI區(qū)域的邊界感。 二是saliency map技術(shù),如上圖展示的一些體育場景以及UGC場景。我們利用眼動儀采集時域注意力等信息,通過采集兩千多個視頻,收集10億以上的注視點(diǎn),構(gòu)建了一套人眼注意力模型。 上圖中突出顯示的區(qū)域代表了人眼主要關(guān)注的區(qū)域,它會隨著時間的變化發(fā)生一些變動。該模型與編碼器相結(jié)合,針對不同的區(qū)域進(jìn)行碼率分配。在連續(xù)觀看下,能夠提升主觀畫質(zhì)。

ea52124a-3aff-11ee-9e74-dac502259ad0.png

接下來介紹被應(yīng)用于編碼器內(nèi)部的工具自適應(yīng)技術(shù)。我們認(rèn)為傳統(tǒng)的率失真理論是基于客觀的,在多數(shù)低碼率的情況下會放大塊效應(yīng)。如低碼率下選擇skip或DC模式很容易出現(xiàn)塊效應(yīng)。 雖然編碼標(biāo)準(zhǔn)中存在諸如deblocking filter等工具,但是它的強(qiáng)度不足以彌補(bǔ)實(shí)際產(chǎn)生的塊效應(yīng)。從主觀上看,如果針對平坦區(qū)域增加一點(diǎn)噪聲和模糊,帶來的主觀感受反而更好。 我們采用兩種方式進(jìn)行了主觀優(yōu)化,一種是單向的,基于源內(nèi)容以及編碼后信息預(yù)測,該區(qū)域后續(xù)是否容易出現(xiàn)塊效應(yīng),并對后續(xù)區(qū)域進(jìn)行針對性碼率保護(hù),同時也會區(qū)分塊效應(yīng)是片源自帶還是編碼導(dǎo)致的。第二種是針對點(diǎn)播場景的2pass編碼,可以依據(jù)first pass的實(shí)際編碼結(jié)果進(jìn)行二次處理。

ea75de6e-3aff-11ee-9e74-dac502259ad0.png

上圖展示了主觀對比結(jié)果,并排對比圖中右側(cè)為開啟工具后效果,可以看到塊效應(yīng)在人臉區(qū)域明顯減少,這一幀的碼率大概增加了5%。由于從編碼器碼控角度,保證序列整體碼率不變的提升上限有限,可以看到圖中人體的手臂位置還較為模糊。

eaf5c7d2-3aff-11ee-9e74-dac502259ad0.png

對于多維度視頻增強(qiáng)部分我們將主要介紹自研的窄帶高清品牌。阿里云早在2015年便已經(jīng)提出了“窄帶高清”概念,在2016年正式推出窄帶高清技術(shù)品牌并進(jìn)行產(chǎn)品化。目前通過多輪篩選和討論,沉淀為窄帶高清1.0和窄帶高清2.0兩個方向。

eb09dbe6-3aff-11ee-9e74-dac502259ad0.png

窄帶高清1.0是均衡版,主要作用是使用最少的成本實(shí)現(xiàn)自適應(yīng)內(nèi)容處理和編碼,在節(jié)省碼率的同時實(shí)現(xiàn)畫質(zhì)的提升。它會充分利用編碼器內(nèi)的信息幫助視頻處理,即用成本很小的前處理方法實(shí)現(xiàn)低成本的內(nèi)容自適應(yīng)。 窄道高清1.0在視頻處理上分為兩個細(xì)分檔位,一種是計算復(fù)雜度相對較低的無差別銳化增強(qiáng)。另一種,會基于片源質(zhì)量進(jìn)行de-artifacts和deblur自適應(yīng)銳化增強(qiáng)。對質(zhì)量較差的片源,相應(yīng)的deartifacts權(quán)重較大。 窄帶高清2.0經(jīng)過多次技術(shù)選型,最終定義為空間維度細(xì)節(jié)修復(fù),解決視頻生產(chǎn)鏈路造成的畫質(zhì)損失,即多次編碼壓縮導(dǎo)致的畫質(zhì)損失。在編碼上也會增加更多自適應(yīng)能力,包括JND、ROI、SDR+等等。

eb5f4f5e-3aff-11ee-9e74-dac502259ad0.png

上圖展示了窄帶高清2.0的增強(qiáng)效果。常規(guī)CNN模型對編碼壓縮造成的塊效應(yīng)、邊緣鋸齒、毛刺等artifacts有比較好的平滑作用,可以使整個畫面看起來更加干凈,但會造成一種磨皮效果。窄帶高清2.0選擇基于GAN的細(xì)節(jié)增強(qiáng),以提升畫面質(zhì)感,如眼角、嘴唇等等。

ebc42564-3aff-11ee-9e74-dac502259ad0.png

窄帶高清2.0細(xì)節(jié)修復(fù)生成核心技術(shù)模塊包括以下7個方面:

一是訓(xùn)練樣本多樣性:建立類型豐富的高畫質(zhì)視頻庫作為模型訓(xùn)練樣本,訓(xùn)練樣本包含多樣的紋理特征,對GAN生成紋理的真實(shí)感有很大的幫助;

二是通過精細(xì)化建模不斷優(yōu)化訓(xùn)練數(shù)據(jù),基于對業(yè)務(wù)場景面臨的畫質(zhì)問題進(jìn)行深入分析,貼合場景不斷優(yōu)化訓(xùn)練樣本,以達(dá)到精細(xì)化建模效果;

三是探索更有效的模型訓(xùn)練策略,包括訓(xùn)練損失函數(shù)配置調(diào)優(yōu),例如perceptual loss使用不同layer的feature會影響生成紋理的顆粒度,不同loss的權(quán)重配比也會影響紋理生成的效果。我們在模型訓(xùn)練過程使用了一種名為NoGAN/漸進(jìn)式訓(xùn)練策略。一方面可以提升模型的處理效果,另一方面對模型生成效果的穩(wěn)定性也有幫助。

四是為了提高模型對片源質(zhì)量的自適應(yīng)能力,我們在訓(xùn)練輸入樣本質(zhì)量的多樣性和訓(xùn)練流程方面做了很多工作。最終對中低質(zhì)量的源有明顯的增強(qiáng)效果,對高質(zhì)量源有中等增強(qiáng)效果。

五是根據(jù)學(xué)術(shù)界的經(jīng)驗,處理目標(biāo)先驗信息越明確,GAN的生成能力越強(qiáng)。因此為了提升GAN對不同場景的處理效果,我們采用了一種1+N的處理模式,即一個具備溫和生成能力的通用場景模型+N個具備激進(jìn)生成能力的垂直細(xì)分場景模型,如足球的草地細(xì)節(jié)、動畫場景的邊緣線條、綜藝場景的人像。

六是高效可控的模型推理,經(jīng)過模型蒸餾/輕量化,同時基于阿里云神龍HRT GPU推理框架,GAN細(xì)節(jié)生成模型在單卡V100上,處理效率可達(dá)1080P 60fps。

七是為了保證GAN模型生成效果的幀間一致性,避免幀間不連續(xù)帶來的視覺閃爍和編碼負(fù)擔(dān),阿里云視頻云通過與高校合作,提出一種即插即用的幀間一致性增強(qiáng)模型。

ebf20c5e-3aff-11ee-9e74-dac502259ad0.png

接下來介紹幾個具體的客戶案例。第一個是2022年江蘇移動的世界杯轉(zhuǎn)碼。針對該場景主要用到了前述的細(xì)節(jié)修復(fù)生成能力。對比圖左側(cè)為經(jīng)過修復(fù)生成并編碼后的效果,右側(cè)為片源。放大后可以看到,人體毛發(fā)細(xì)節(jié)和文字邊緣銳度都獲得了明顯提升。

ec1ba0dc-3aff-11ee-9e74-dac502259ad0.png

同樣,在BesTV的NBA直播轉(zhuǎn)碼上也能達(dá)到類似效果。對比窄高編碼后畫面和片源可以看到,文字區(qū)域、球衣細(xì)節(jié)和地板紋理更加豐富。

ec8f9cc6-3aff-11ee-9e74-dac502259ad0.png

除了體育場景外,我們還支持了《理想之途》演唱會場景,它的特點(diǎn)是片源質(zhì)量較差(現(xiàn)場是暗場,伴隨著燈光、煙霧和場景的頻繁切換),可以看到畫面有明顯的塊效應(yīng)。針對該場景,除了窄帶高清2.0外,我們同時使用了人像定制模板和基于語義的分割引導(dǎo)技術(shù)對圖像進(jìn)行還原。

ecbe6330-3aff-11ee-9e74-dac502259ad0.png

上圖展示了轉(zhuǎn)碼圖與原圖的效果對比,可以看到人物背后煙霧的塊效應(yīng)得到改善,人臉、毛發(fā)等細(xì)節(jié)也得到提升。右圖是觀眾反饋,對直播畫面的清晰度評價很高。

ece11f88-3aff-11ee-9e74-dac502259ad0.png

除了前述的體育直播和演唱會場景外,我們對一些沉浸式場景也進(jìn)行了優(yōu)化,例如對VR場景窄高采用基于VR視角和經(jīng)緯度的JND和saliency map技術(shù)。 為了進(jìn)一步優(yōu)化沉浸式體驗,我們還提供了能夠呈現(xiàn)聲源空間方位的空間音頻技術(shù),使用戶能夠在聽的過程中感受到聲源的變換,使實(shí)時互動從“在線”變成 “在場”。

ed0745e6-3aff-11ee-9e74-dac502259ad0.png

接下來介紹多目標(biāo)編碼能力兼容。除了常規(guī)關(guān)注的碼率和質(zhì)量外,我們還考慮了目標(biāo)復(fù)雜度和目標(biāo)質(zhì)量編碼。

ed72d8e2-3aff-11ee-9e74-dac502259ad0.png

首先是目標(biāo)復(fù)雜度編碼。傳統(tǒng)編碼器編碼速度、機(jī)器資源消耗隨視頻內(nèi)容改變而改變,導(dǎo)致多數(shù)情況下編碼水位相對不可控。因此在實(shí)際使用中我們對編碼器也會有復(fù)雜度限制的使用需求。 復(fù)雜度分配具體從序列級到GOP級到幀級到塊級進(jìn)行反饋,反饋的內(nèi)容包括編碼質(zhì)量、速度以及前述的一些自行分析內(nèi)容。這使得簡單場景下可以利用更多計算資源換取主客觀質(zhì)量提升。復(fù)雜場景下類似于碼控VBV的概念,可以在避免降低主客觀質(zhì)量的同時限制編碼復(fù)雜度。 其次是目標(biāo)質(zhì)量編碼,在此以VMAF為例。傳統(tǒng)ABR/CRF碼控?zé)o法在同一碼控參數(shù)設(shè)置下,保障不同序列VMAF分恒定。同時,也無法快速通過目標(biāo)VMAF分獲得應(yīng)設(shè)置的目標(biāo)碼率或CRF參數(shù)。 雖然CRF是質(zhì)量較為穩(wěn)定的碼控方式,但具體到某一個特定指標(biāo),不同序列的分?jǐn)?shù)波動仍然較大。基于以上背景,我們開發(fā)了目標(biāo)質(zhì)量編碼工具,右下圖是工具開啟前后的對比圖,可以看到代表開啟工具后的橙色線,不同序列間的質(zhì)量分方差明顯變小。

edaefc82-3aff-11ee-9e74-dac502259ad0.png

接下來介紹架構(gòu)中的多標(biāo)準(zhǔn)自研編碼內(nèi)核。首先是我們自研的三大編碼器:S264、S265和Ali266,每種都基于客觀、主觀及場景約束研發(fā)了100+的算法,覆蓋直播,點(diǎn)播,RTC場景,以及云端,終端,自然場景,SCC場景。

edd8ad02-3aff-11ee-9e74-dac502259ad0.png

性能上,S264、S265相對開源編碼器,在全場景下可提升20%~60%壓縮率,特別是針對超高清,低延時場景進(jìn)行了更深度優(yōu)化。優(yōu)化方式包括預(yù)處理(MCTF、Scene Detection、SCC Detection、GOP size自適應(yīng))、快速算法(塊劃分、模式?jīng)Q策、運(yùn)動估計、SAO/ALF)、碼率控制(CUTree、AQ、lambda優(yōu)化、CTU級碼控)和工程優(yōu)化(多線程并行、代碼重構(gòu)、訪存優(yōu)化、SIMD優(yōu)化)。 S264、S265于2022年參加了世界編碼器Cloud比賽,共獲得19項第一,相較于大賽指定的基準(zhǔn)編碼器AWS可節(jié)省63%的碼率,從轉(zhuǎn)碼效率的角度,相較友商也擁有2~6倍的優(yōu)勢。

edf29ab4-3aff-11ee-9e74-dac502259ad0.png

Ali266于2021年首次參加世界編碼器codec大賽,在客觀比賽獲得8項第一,相比于參考編碼器x265,在相同PSNR客觀質(zhì)量下可節(jié)省51%的碼率,同時它在主觀比賽中評分第一。 在Ali266的落地方面,阿里云視頻云與達(dá)摩院緊密合作,推動Ali266在媒體處理、直播轉(zhuǎn)碼等產(chǎn)品的商用落地。2022年1月,Ali266在優(yōu)酷正式上線,在成本和用戶體驗上獲得顯著受益。

ee419c68-3aff-11ee-9e74-dac502259ad0.png

為了完善和推動Ali266的生態(tài)化,我們也優(yōu)化了Ali266的解碼器,方案包括多線程加速、匯編優(yōu)化、內(nèi)存&緩存優(yōu)化。優(yōu)化后解碼性能相較于開源解碼器達(dá)到了40%~105%的提升,內(nèi)存占用下降30%以上,支持超過九成移動端設(shè)備的高清實(shí)時解碼。

ee86d60c-3aff-11ee-9e74-dac502259ad0.png

接下來介紹關(guān)于多平臺的支持。

eed0b5e2-3aff-11ee-9e74-dac502259ad0.png

首先,是阿里云視頻云與平頭哥解決方案團(tuán)隊合作的,基于倚天ARM服務(wù)器的優(yōu)化。我們在倚天710上,主要針對S264、S265進(jìn)行了架構(gòu)的深度優(yōu)化,主要包括三個方向,一是計算函數(shù)的匯編優(yōu)化,使得總體性能提升40%;二是計算函數(shù)并行優(yōu)化,也實(shí)現(xiàn)了約40%的性能提升;三是偏控制函數(shù)優(yōu)化,將算法設(shè)計與優(yōu)化相結(jié)合,再提升了20%的性能。最終結(jié)果是,S264和S265倚天相對于C7性能提升了30%以上,并已在視頻云點(diǎn)播場景大規(guī)模商用。

eee845fe-3aff-11ee-9e74-dac502259ad0.png

如圖所示,展示了云渲染場景的一個案例:央博新春云廟會。它要求低時延并自帶Nvidia inc編碼器。我們通過接管該編碼器的碼控模塊,融合自研的JND和基于空域特征碼率分配的AQ算法,加上前處理增強(qiáng)技術(shù),最終實(shí)現(xiàn)了窄高落地在云渲染場景的落地。并列圖中右側(cè)為窄高優(yōu)化后的效果,可以看到實(shí)現(xiàn)了豐富的細(xì)節(jié)提升效果。

04

智能編碼的思考和探索

ef637aa8-3aff-11ee-9e74-dac502259ad0.png

最后,分享一些在智能編碼上的實(shí)踐和思考。首先,是我們在面對主客觀優(yōu)化的矛盾時,如何去定義“好”?現(xiàn)在的編碼方向已經(jīng)愈發(fā)從“客觀”向“主觀”靠攏。無論是以“人”為中心還是從最終的用戶體驗出發(fā),視頻都應(yīng)該關(guān)注主觀體驗的。 在研發(fā)過程中,如果單純考慮編碼器優(yōu)化,我們通常依賴如PSNR、SSIM、VMAF-NEG這樣的有源客觀指標(biāo)。但當(dāng)優(yōu)化目標(biāo)類似于窄高,是出于提升主觀質(zhì)量,那么客觀指標(biāo)分?jǐn)?shù)的提升就不一定能反映到主觀質(zhì)量上。 更進(jìn)一步來說,使用單一客觀指標(biāo)衡量視頻質(zhì)量也存在問題,從編碼標(biāo)準(zhǔn)方面看,使用標(biāo)準(zhǔn)自帶的SAO和DB工具,對PSNR和SSIM影響不大,但會導(dǎo)致VMAF分?jǐn)?shù)降低;從開源軟件方面看,X265編碼器的PSY工具能夠在主觀上增加一些高頻細(xì)節(jié),但對客觀指標(biāo)也有不良影響;我們自研的基于編碼反饋的主觀優(yōu)化反映的客觀指標(biāo)同樣不佳;前面提到的JND也是一樣,明顯在客觀指標(biāo)上反饋不好; 在前處理增強(qiáng)上,可以明顯看到SRGAN中清晰而錯誤的紋理相較于模糊的細(xì)節(jié)主觀表現(xiàn)更優(yōu),但PSNR和SSIM更差。 這是我們當(dāng)下在編碼優(yōu)化中的一個困境。

efb975e8-3aff-11ee-9e74-dac502259ad0.png

另一方面,是我們在AI for coding方面的一些相關(guān)實(shí)踐,我們始終關(guān)注AI Codec在視頻編碼方向的發(fā)展。目前可以看到,它確實(shí)能夠持續(xù)提升視頻客觀質(zhì)量,在前處理以及編碼方向能利用GAN以及Diffusion Model等生成技術(shù)提升主觀質(zhì)量。這也是我們正在研究的重要方向。

關(guān)于沉浸式編碼標(biāo)準(zhǔn),我們目前在持續(xù)關(guān)注基于“點(diǎn)云”的編碼標(biāo)準(zhǔn)以及基于沉浸式的MIV編碼標(biāo)準(zhǔn),后續(xù)根據(jù)落地情況也會加入到多自研標(biāo)準(zhǔn)的編碼器中。

efd744c4-3aff-11ee-9e74-dac502259ad0.png

最后關(guān)于Coding for AI,目前主要在關(guān)注VCM,它在同等信息量下,壓縮率相比傳統(tǒng)編碼能提高2-3倍,可直接利用結(jié)構(gòu)化的碼流進(jìn)行視覺任務(wù),同時支持多種多媒體任務(wù)。具體應(yīng)用上,我們正在明廚亮灶、自動駕駛、AI監(jiān)考方向進(jìn)行相關(guān)實(shí)踐和探索。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34588

    瀏覽量

    276197
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    967

    瀏覽量

    55595
  • 智能化
    +關(guān)注

    關(guān)注

    15

    文章

    5109

    瀏覽量

    57030

原文標(biāo)題:“多”維演進(jìn):智能化編碼架構(gòu)的研究與實(shí)踐

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    開放生態(tài)+極簡運(yùn)租戶園區(qū)網(wǎng)絡(luò)的云原生管理實(shí)踐

    新一代云園區(qū)網(wǎng)解決方案,創(chuàng)新性地將數(shù)據(jù)中心級的Spine/Leaf架構(gòu)以及“全三層”、“云架構(gòu)”、“超堆疊”、“云漫游”等設(shè)計理念應(yīng)用于園區(qū)場景,顯著提升網(wǎng)絡(luò)服務(wù)質(zhì)量和運(yùn)水平。面對
    的頭像 發(fā)表于 06-16 16:28 ?326次閱讀
    開放生態(tài)+極簡運(yùn)<b class='flag-5'>維</b>:<b class='flag-5'>多</b>租戶園區(qū)網(wǎng)絡(luò)的云原生管理<b class='flag-5'>實(shí)踐</b>

    酒店智能化都用到哪些芯片之高速互聯(lián)型MCU CH32V317

    復(fù)雜算法處理和實(shí)時控制場景中表現(xiàn)優(yōu)異。芯片集成了豐富的通信接口,包括: 二、酒店智能化系統(tǒng)中的CH32V317應(yīng)用 (一)協(xié)議通信架構(gòu) 在酒店智能化系統(tǒng)中,CH32V317通過靈活
    發(fā)表于 05-30 17:02

    BMS HIL測試技術(shù)演進(jìn):高壓架構(gòu)域融合與儲能系統(tǒng)應(yīng)用解析

    隨著新能源汽車及儲能系統(tǒng)高壓智能化發(fā)展,BMS HIL測試技術(shù)成為驗證電池安全與性能的核心手段。北匯信息基于Vector工具鏈的BMS HIL方案演變,涵蓋400V至800V高壓架構(gòu)升級、分布式
    的頭像 發(fā)表于 05-19 14:56 ?869次閱讀
    BMS HIL測試技術(shù)<b class='flag-5'>演進(jìn)</b>:高壓<b class='flag-5'>架構(gòu)</b>、<b class='flag-5'>多</b>域融合與儲能系統(tǒng)應(yīng)用解析

    智慧園區(qū)配電房智能化智能電力運(yùn)中的應(yīng)用

    吳春紅18702111910 摘要:隨著電力系統(tǒng)的快速發(fā)展和智能化進(jìn)程的推進(jìn),智能電力運(yùn)成為了當(dāng)前電力行業(yè)的重要發(fā)展方向。而作為電力系統(tǒng)的關(guān)鍵節(jié)點(diǎn)之一,配電房在保障電力供應(yīng)安全和穩(wěn)定方面發(fā)揮
    的頭像 發(fā)表于 04-29 17:05 ?1485次閱讀
    智慧園區(qū)配電房<b class='flag-5'>智能化</b>在<b class='flag-5'>智能</b>電力運(yùn)<b class='flag-5'>維</b>中的應(yīng)用

    百度地圖在汽車智能化領(lǐng)域的應(yīng)用實(shí)踐

    近日,在中國電動汽車百人會論壇(2025)的智能汽車創(chuàng)新技術(shù)與產(chǎn)業(yè)論壇,百度地圖事業(yè)部副總經(jīng)理劉增剛發(fā)表主旨演講,分享了百度地圖在汽車智能化浪潮中價值思考和應(yīng)用實(shí)踐。他表示:“25年汽車智能化
    的頭像 發(fā)表于 04-03 15:02 ?1503次閱讀

    光伏電站智能化管理系統(tǒng):光伏場站智能化管理的引擎

    ?????? 光伏電站智能化管理系統(tǒng):光伏場站智能化管理的引擎 ?????? 在全球能源結(jié)構(gòu)加速轉(zhuǎn)型的背景下,光伏發(fā)電作為清潔能源的核心力量,正迎來規(guī)模發(fā)展的黃金期。然而,隨著電站規(guī)模擴(kuò)大于運(yùn)
    的頭像 發(fā)表于 02-23 17:46 ?558次閱讀
    光伏電站<b class='flag-5'>智能化</b>管理系統(tǒng):光伏場站<b class='flag-5'>智能化</b>管理的引擎

    智慧醫(yī)院智能化系統(tǒng)設(shè)計

    摘 要: 結(jié)合某知名大型三甲綜合醫(yī)院項目的智能化系統(tǒng)設(shè)計,提出智慧醫(yī)院智能化系統(tǒng)的技術(shù)解決 方案,闡述智慧醫(yī)院智能化系統(tǒng)方案的總體架構(gòu)、建設(shè)目標(biāo)、設(shè)計宗旨、典型應(yīng)用及各
    的頭像 發(fā)表于 01-14 14:09 ?448次閱讀

    尋跡智行助力鐵路行業(yè)運(yùn)養(yǎng)護(hù)智能化搬運(yùn)

    鐵路是國民經(jīng)濟(jì)“大動脈”,為了提升鐵路基礎(chǔ)設(shè)施精細(xì)化、快速智能化運(yùn)養(yǎng)護(hù)水平,尋跡智行助力某鐵道工程研究所動車段檢修環(huán)節(jié)搬運(yùn)無人化
    的頭像 發(fā)表于 01-10 16:14 ?360次閱讀
    尋跡智行助力鐵路行業(yè)運(yùn)<b class='flag-5'>維</b>養(yǎng)護(hù)<b class='flag-5'>智能化</b>搬運(yùn)

    單軸測徑儀也可以智能化

    關(guān)鍵字:藍(lán)鵬牌測徑儀,智能測徑儀,單軸智能測徑儀,測徑儀智能化,測徑儀智能測控,外徑智能測量,單路測徑儀,小型測徑儀
    發(fā)表于 12-31 13:55

    光伏電站運(yùn)管理系統(tǒng)智能化升級

    ?????? 光伏電站運(yùn)管理系統(tǒng)智能化升級 ?????? 在全球能源轉(zhuǎn)型和綠色發(fā)展的浪潮中,光伏電站作為清潔能源的重要組成部分,正迎來前所未有的發(fā)展機(jī)遇。然而,隨著光伏電站規(guī)模的擴(kuò)大和復(fù)雜性的增加
    的頭像 發(fā)表于 11-29 16:44 ?608次閱讀
    光伏電站運(yùn)<b class='flag-5'>維</b>管理系統(tǒng)<b class='flag-5'>智能化</b>升級

    淺談綜合管廊智能化管理運(yùn)監(jiān)控的實(shí)現(xiàn)

    摘要:本文主要提出了基于BIM與GIS技術(shù)的綜合管廊智能化管理運(yùn)監(jiān)控系統(tǒng)的設(shè)計思路,對BIM與GIS在管廊智能化管理中的應(yīng)用進(jìn)行了相關(guān)分析研究,為管廊
    的頭像 發(fā)表于 11-14 12:50 ?676次閱讀
    淺談綜合管廊<b class='flag-5'>智能化</b>管理運(yùn)<b class='flag-5'>維</b>監(jiān)控的實(shí)現(xiàn)

    光伏電站運(yùn)管理系統(tǒng)智能化運(yùn)的新時代

    光伏電站運(yùn)管理系統(tǒng)智能化運(yùn)的新時代 隨著光伏電站的迅速發(fā)展,其運(yùn)維和管理工作日益受到關(guān)注。傳統(tǒng)的運(yùn)模式已難以滿足現(xiàn)代光伏電站高效、穩(wěn)定運(yùn)行的需求。因此,光伏電站運(yùn)
    的頭像 發(fā)表于 11-01 17:03 ?540次閱讀
    光伏電站運(yùn)<b class='flag-5'>維</b>管理系統(tǒng)<b class='flag-5'>智能化</b>運(yùn)<b class='flag-5'>維</b>的新時代

    【?嵌入式機(jī)電一體系統(tǒng)設(shè)計與實(shí)現(xiàn)?閱讀體驗】+《智能化技術(shù)在船舶維護(hù)中的應(yīng)用探索》

    智能化技術(shù)在船舶維護(hù)中的應(yīng)用探索 本文深入分析了海洋工業(yè)中污損生物對船舶性能的負(fù)面影響,并探討了智能化技術(shù),尤其是基于樹莓派的嵌入式系統(tǒng)設(shè)計,如何成為解決這一問題的新途徑。污損生物的附著不僅增加了
    發(fā)表于 08-26 22:22

    3GPP R16的主要特點(diǎn)

    eMBB場景性能。 服務(wù)架構(gòu)增強(qiáng):包括eSBA、ETSUN、網(wǎng)絡(luò)切片增強(qiáng)等,強(qiáng)化了自組織網(wǎng)絡(luò)對系統(tǒng)的自優(yōu)化。 運(yùn)自動及網(wǎng)絡(luò)智能化
    發(fā)表于 07-24 07:51

    光伏電站運(yùn)管理系統(tǒng)實(shí)現(xiàn)光伏智能化運(yùn)管理

    ?????? 光伏電站運(yùn)管理系統(tǒng)實(shí)現(xiàn)光伏智能化運(yùn)管理 ?????? 光伏電站全生命周期一般長達(dá)25年,其中3-6個月是建設(shè)期,運(yùn)期則占據(jù)了光伏電站壽命的大部分,約為25年,電站的
    的頭像 發(fā)表于 07-23 16:50 ?1081次閱讀
    光伏電站運(yùn)<b class='flag-5'>維</b>管理系統(tǒng)實(shí)現(xiàn)光伏<b class='flag-5'>智能化</b>運(yùn)<b class='flag-5'>維</b>管理
    主站蜘蛛池模板: 久久久夜色精品国产噜噜 | 天堂网资源www | 天堂中文在线网 | 男人的天堂视频网站清风阁 | 人人添人人澡人人澡人人人爽 | 国产免费卡1卡2卡 | 久久婷婷丁香 | 美女一级牲交毛片视频 | 婷婷综合激六月情网 | 国产女人视频免费观看 | 天天拍天天射 | 在线天堂资源www中文在线 | 视频二区中文字幕 | 亚洲成年人免费网站 | 热门国产xvideos中文 | 起碰免费视频 | 国内精品久久影视免费 | 天天干小说 | 午夜免费福利在线观看 | 嘿嘿嘿视频在线观看 | 有坂深雪在线 | 成人欧美一区二区三区 | 色依依视频视频在线观看 | 在线免费看黄视频 | 韩日中文字幕 | 国产一区二区在线观看免费 | 99精品热女视频专线 | 男人的天堂色偷偷之色偷偷 | 91po狼人社在线观看 | 99久久免费精品国产免费高清 | 国产精品情人露脸在线观看 | 男人操女人视频网站 | 天天干天天干天天色 | 韩国三级理在线视频观看 | 色五月激情小说 | 一级不卡毛片免费 | 亚洲欧美国产高清va在线播放 | 综合色图 | 国产日韩精品一区二区在线观看 | 娇妻被黑人蹂躏 | 老师您的兔子好软水好多动漫视频 |