新聞資訊
NEWS & INFORMATION
【精選】Audio Vivid標準關鍵技術研究及系統(tǒng)試驗
時間:
2024-01-03
作者:
分類:
企業(yè)新聞
NO.1 編解碼及渲染技術框架
Audio Vivid支持基于聲道的音頻信號(聲道信號)、基于對象的音頻信號(對象信號)和基于場景的音頻信號(HOA信號)的音頻編碼和元數(shù)據(jù)編碼。音頻編碼可采用通用碼率音頻編碼,在保證聽音質量的前提下對音頻信號進行編碼,也可采用《信息技術 高效多媒體編碼 第3部分:音頻》(GB/T 33475.3—2018)規(guī)定的無損音頻編碼,在數(shù)據(jù)無損的情況下實現(xiàn)音頻信號的壓縮。音頻編碼既支持聲道信號、對象信號和HOA信號的單獨編碼,也支持聲道+對象、HOA+對象等的混合編碼。編碼后的位流通過三維聲位流復用得到三維聲編碼位流。Audio Vivid編碼框架見圖1。
圖1 Audio Vivid編碼框架
Audio Vivid解碼是編碼的逆過程,通用碼率音頻解碼或無損音頻解碼得到聲道信號、對象信號、HOA信號,通過元數(shù)據(jù)解碼恢復元數(shù)據(jù)信息。根據(jù)不同的終端重放環(huán)境,可通過揚聲器渲染得到對應揚聲器布局的信號用于揚聲器播放,也可通過雙耳渲染得到左右兩路信號用于耳機播放。Audio Vivid解碼和渲染框架見圖2。
圖2 Audio Vivid解碼和渲染框架
NO.2 通用碼率音頻編解碼關鍵技術
2.1 編解碼框架和流程
通用碼率音頻編碼包括核心編碼和HOA空間編碼。核心編碼由編碼預處理、下混和神經(jīng)網(wǎng)絡變換與量化編碼組成。編碼預處理將聲道信號從時域轉換為頻域進行預處理,包括暫態(tài)檢測、窗型判斷、改進離散余弦變換(MDCT)、頻域噪聲整形、時域噪聲整形、頻帶擴展編碼;下混將編碼預處理后的頻域信號進行下混,去除聲道間的相關性,包括雙聲道立體聲下混、多聲道下混、HOA下混;神經(jīng)網(wǎng)絡變換與量化編碼采用基于神經(jīng)網(wǎng)絡的方式對下混后的信號進行變換、量化和編碼得到二進制位流。HOA信號經(jīng)過HOA空間編碼后,再通過核心編碼得到二進制位流。編碼后的位流和元數(shù)據(jù)編碼位流經(jīng)過位流復用得到編碼位流。通用碼率音頻編碼框架示意圖見圖3。
圖3 通用碼率音頻編碼框架
通用碼率音頻解碼對編碼后的位流進行解復用,經(jīng)過包括解碼逆量化和神經(jīng)網(wǎng)絡逆變換、上混、解碼后處理的核心解碼處理后恢復得到單聲道信號、雙聲道立體聲信號、多聲道信號或對象信號。對于HOA解碼,核心解碼后的信號再經(jīng)過HOA空間解碼得到HOA信號。通用碼率音頻編碼框架示意圖見圖4。單聲道信號解碼、雙聲道立體聲信號解碼、多聲道信號解碼和HOA空間解碼過程是對應編碼過程的逆過程,在此不再贅述。
圖4 通用碼率音頻解碼框架
2.2 編解碼關鍵技術
2.2.1 暫態(tài)信號檢測和MDCT
一幀音頻信號包含1024個樣點,通過加窗將信號分為多個數(shù)據(jù)塊,然后對每個數(shù)據(jù)塊單獨處理。首先對輸入的音頻信號進行暫態(tài)檢測,判斷當前信號是暫態(tài)信號還是穩(wěn)態(tài)信號。對暫態(tài)信號加短窗以保證較好的時域分辨率,對穩(wěn)態(tài)信號加長窗以保證較好的頻域分辨率。
2.2.2 噪聲整形
音頻信號中的暫態(tài)信號從時域變換到頻域后,存在大量的高頻細節(jié)分量,量化時會產(chǎn)生量化噪聲,經(jīng)過反量化和反變換處理到時域后噪聲會擴散,有部分噪聲不能被掩蔽掉,會產(chǎn)生預回聲和后回聲現(xiàn)象,影響聲音質量。
時域噪聲整形(TNS)通過在頻域對信號進行預測編碼,解碼端通過調節(jié)量化噪聲的時域形狀,來適應輸入信號的時域形狀,利用聲音信號的掩蔽特性,將量化噪聲由有用信號掩蔽掉。Audio Vivid通過采用兩個可選頻段的TNS濾波器實現(xiàn)時域噪聲整形,將整個MDCT頻譜劃分為兩個濾波器,分別覆蓋[660Hz,5400Hz]和[5400Hz,20000Hz]。TNS濾波器使用的參數(shù)為反射系數(shù)(最大階數(shù)為8),是LPC、LSF等參數(shù)的等價表示。在TNS濾波器對應的頻率范圍內,對該頻率范圍內的MDCT頻譜進行基于反射系數(shù)的線性預測分析濾波,所得結果為TNS處理后的MDCT頻譜。頻域噪聲整形(FDNS)控制編碼過程引入的量化噪聲在頻域上的分布情況,利用人耳聽覺掩蔽效應減少可感知的量化噪聲,提升編碼質量。Audio Vivid的頻域噪聲整形算法為基于LPC參數(shù)的MDCT頻譜整形技術,包括信號預加重、自相關系數(shù)計算、LPC參數(shù)求解、LPC轉換為LSF、LSF參數(shù)量化編碼、頻譜整形等處理。
2.2.3 頻帶擴展
頻帶擴展利用MDCT頻譜高低頻之間的相關性,在解碼端根據(jù)解碼所得核心帶頻譜重建原始信號的高頻帶頻譜,在節(jié)省編碼帶寬的同時又能恢復出高頻細節(jié)特征。
Audio Vivid中頻帶擴展算法在編碼端計算每個高頻頻帶的MDCT頻譜能量,作為頻帶擴展的高頻子帶包絡參數(shù)。根據(jù)源頻率區(qū)域和目標頻率區(qū)域的頻譜特征,確定高頻白化等級。解碼端根據(jù)高頻子帶包絡參數(shù)和白化等級恢復出高頻頻譜。
2.2.4 神經(jīng)網(wǎng)絡變換與熵編碼
為了有效提升編碼效率,Audio Vivid采用了基于神經(jīng)網(wǎng)絡的變換和熵編碼技術。利用基礎編碼神經(jīng)網(wǎng)絡將MDCT信號轉換為隱特征信號,再對隱特征信號做量化和熵編碼。生成隱特征信號的目的是為了獲得更利于高效熵編碼的特征。隱特征在做熵編碼前首先進行標量量化。標量量化的量階大小由目標編碼碼率控制。標量量化后的隱特征信號被送入基于神經(jīng)網(wǎng)絡的熵編碼模塊。熵編碼模塊利用上下文編碼神經(jīng)網(wǎng)絡生成待編碼隱特征信號的上下文,根據(jù)該上下文選擇對應的碼書對隱特征信號進行熵編碼。兩個深度神經(jīng)網(wǎng)絡是聯(lián)合訓練的,在最小化信息熵的約束下聯(lián)合尋找待編碼特征、上下文和各碼書之間的關系,充分利用了深度神經(jīng)網(wǎng)絡的強大抽象能力。兩個深度神經(jīng)網(wǎng)絡在編碼端和解碼端采用了非對稱的設計,即編碼端采用較大的神經(jīng)網(wǎng)絡保證較高的壓縮效率,而解碼端采用較小的神經(jīng)網(wǎng)絡以降低開銷。基于神經(jīng)網(wǎng)絡的變換與編碼技術架構見圖5。
圖5 神經(jīng)網(wǎng)絡變換與編碼技術架構
基礎編碼神經(jīng)網(wǎng)絡的輸入為長度1024的MDCT頻譜,經(jīng)神經(jīng)網(wǎng)絡變換后,得到的變換系數(shù)維度為16通道,每個通道64個系數(shù)。
上下文編碼神經(jīng)網(wǎng)絡結構配置相關信息見表2。上下文編碼神經(jīng)網(wǎng)絡的輸入為16通道,每個通道64維的變換系數(shù),經(jīng)神經(jīng)網(wǎng)絡變換后,得到的上下文編碼神經(jīng)網(wǎng)絡的變換系數(shù),通道數(shù)仍為16,每個通道16維。
2.2.5 HOA空間編碼
對于一個m階的HOA信號,具有(m+1)2個音頻通道,如三階HOA信號具有16個音頻通道。HOA信號也可以看作一種多聲道音頻信號,采用多聲道編碼的方式直接進行壓縮,但需要壓縮的數(shù)據(jù)量隨著階數(shù)的增長顯著提升。為了進一步降低分配到多聲道核心編碼器音頻信號之間的相關性,Audio Vivid采用HOA空間編碼,將HOA音頻通道信號轉化到一系列虛擬揚聲器信號中,用以降低冗余,提高編碼效率。
圖6 虛擬揚聲器分布
HOA空間編碼技術假設待編碼HOA信號的周圍分布了若干虛擬揚聲器,如圖6所示。待編碼的HOA信號可以由少數(shù)虛擬揚聲器信號的HOA表達來近似,原始HOA信號和該近似表達信號的差值為殘差信號,編碼時只需要對少數(shù)虛擬揚聲器信號的HOA表達和殘差信號進行編碼。少數(shù)虛擬揚聲器信號的HOA表達可以進一步分解為虛擬揚聲器HOA系數(shù)矩陣與虛擬揚聲器信號向量。HOA系數(shù)矩陣編碼只需將虛擬揚聲器的位置信息作為邊信息編碼。虛擬揚聲器信號由待編碼HOA信號在選定的少數(shù)虛擬揚聲器上的投影確定。
由于少數(shù)虛擬揚聲器的數(shù)量遠小于待編碼HOA信號的通道數(shù),殘差信號可以用相對較少的比特編碼,虛擬揚聲器位置邊信息的數(shù)據(jù)量又很小,因而編碼效率大幅提升。
NO.3元數(shù)據(jù)編碼
Audio Vivid支持ITU-R BS.2076標準中規(guī)定的元數(shù)據(jù),并對部分元素和屬性進行了進一步限定以便用于后續(xù)編碼,如將audioProgrammeName的長度規(guī)定為32個字節(jié)以內。此外,也支持后續(xù)根據(jù)實際應用需求對元數(shù)據(jù)進一步擴展。
元數(shù)據(jù)編碼采用標量量化,根據(jù)取值范圍確定量化步長和量化偏置,經(jīng)過均勻量化后得到元數(shù)據(jù)編碼位流,與音頻編碼位流一起復用為三維聲編碼位流。
NO.4 揚聲器渲染和雙耳渲染
4.1 揚聲器渲染
揚聲器渲染將輸入的元數(shù)據(jù)和音頻數(shù)據(jù)根據(jù)特定的重放配置,渲染出用于重放的音頻信號。揚聲器渲染分為基于聲道的渲染、基于對象的渲染和基于HOA的渲染?;诼暤赖匿秩緦⑤斎肼暤佬盘栟D換為目標揚聲器布局所需的信號,基于對象的渲染和基于HOA的渲染利用元數(shù)據(jù)和重放配置再現(xiàn)基于對象和基于HOA的音頻數(shù)據(jù)。根據(jù)實際應用需求,三種渲染方式可組合使用,也可單獨使用。
基于聲道的渲染根據(jù)輸入聲道的位置,結合目標揚聲器布局,確定每個聲道信號的增益。若輸入聲道數(shù)與輸出聲道數(shù)不相等,采用點聲源定位,由實際揚聲器虛擬出對應輸出位置。點聲源定位使用三角形區(qū)域方法來處理,由三個揚聲器形成的球形三角形區(qū)域實現(xiàn)基本的VBAP來獲得虛擬揚聲器的位置。當輸入為5.1聲道且目標揚聲器布局中音箱個數(shù)小于3時,采用立體聲下混方式,將5.1聲道信號下混為立體聲信號。
基于對象的渲染根據(jù)輸入的對象信號和對應的元數(shù)據(jù),實現(xiàn)屏幕縮放、屏邊鎖定、聲道鎖定、發(fā)散、聲像擴展、排除下混區(qū)域等處理,也采用基于VBAP技術進行對象渲染,利用 3個揚聲器的位置向量計算得到虛擬聲源的位置,假設聲源和3個揚聲器位于同一個球面上,將 3個揚聲器的位置向量視為基向量,虛擬聲源的位置由它們的線性組合得到。
基于HOA的渲染采用基于AllRAD的方法,計算出每一HOA軌道對應音箱的增益值,將多軌HOA信號輸出給獨立的音箱。通過AllRAD的矩陣,將HOA信號分解為均勻分布在球體上的虛擬揚聲器,并在實際揚聲器上通過點聲源定位生成虛擬揚聲器信號。
4.2 雙耳渲染
雙耳渲染采用基于Ambisonic的聲場重建技術,使用球諧函數(shù)將輸入音頻按照元數(shù)據(jù)編碼到球諧域,以Ambisonic格式作為中間介質信號存儲,空間編碼包括聲道音頻的空間編碼和對象音頻的空間編碼。由于HOA音頻本身是Ambisonic格式,只需要疊加到中間介質信號上,無需進行空間編碼??臻g編碼時需對聲源位置參數(shù)進行坐標變換才能使用,同時空間編碼也需要對元數(shù)據(jù)中的控制參數(shù)和用戶交互進行響應。最后將Ambisonic信號經(jīng)空間解碼后輸出雙耳音頻。參數(shù)計算是對控制參數(shù)進行計算和轉換,例如位置參數(shù)坐標系變換,對象音頻位置更新等。
NO.5 Audio Vivid端到端直播系統(tǒng)搭建及試驗
為了加快Audio Vivid標準的應用部署,卡塔爾世界杯期間中央廣播電視總臺搭建了基于Audio Vivid的廣播級端到端直播試驗系統(tǒng),試驗系統(tǒng)部署在總臺光華路辦公區(qū)6層音頻島,制作域和傳輸編碼域部署在第十一錄音合成機房,家庭展示環(huán)境部署在第八錄音合成機房三維聲審聽室。制作域和家庭展示環(huán)境的音箱布局均采用GY/T 316中4+5+0揚聲器配置。Audio Vivid端到端直播試驗系統(tǒng)框圖見圖7。
圖7 Audio Vivid端到端直播試驗系統(tǒng)框圖
主控回傳的卡塔爾世界杯賽事音頻信號為10通道三維聲聲床信號(3聲道為中文評論)和6通道對象信號,對象信號包括1通道英文評論信號、1通道“Close Ball”信號(踢球聲)、1通道 “Audio follow Video”(畫面聲)、1通道現(xiàn)場廣播/音樂和2通道球迷聲信號。音頻信號在音頻制作系統(tǒng)中經(jīng)過聲道倒換、電平調整等制作后生成為5.1.4聲床+6個對象的16通道PGM信號,然后通過交換機以ST 2110-30[5]的方式分別傳輸至編碼器和Audio Vivid制作工具。Audio Vivid制作工具支持ITU-R BS.2076-2規(guī)定的元數(shù)據(jù)制作,可對各通道音頻信號、交互等元數(shù)據(jù)進行配置,生成的元數(shù)據(jù)信號使用HTTP協(xié)議通過交換機傳輸至編碼器。同時,Audio Vivid制作工具將16通道PGM信號實時渲染生成為三維聲監(jiān)聽信號并傳輸至音頻制作系統(tǒng)進行監(jiān)聽。視頻信號為4K超高清信號,不經(jīng)過處理直接以ST 2110-20的方式傳輸至編碼器。編碼器實現(xiàn)4K超高清AVS3視頻實時編碼和Audio Vivid音頻實時編碼。本次試驗中聲床信號編碼碼率為256kbps,對象信號和元數(shù)據(jù)編碼碼率為192kbps,總的三維聲音頻編碼碼率為448kbps。編碼后的音視頻碼流封裝為TS流,并以HTTP的方式傳輸至家庭展示環(huán)境。
家庭展示環(huán)境部署了支持Audio Vivid解碼的機頂盒,機頂盒對視音頻編碼信號解復用后分別解碼。視頻解碼模塊將4K 超高清視頻編碼信號經(jīng)過AVS3解碼后通過HDMI傳輸至4K電視顯示。音頻解碼渲染模塊將三維聲編碼信號經(jīng)過Audio Vivid解碼得到音頻信號(聲床信號和對象信號)和元數(shù)據(jù)。同時,音頻解碼渲染模塊配置了三維聲元數(shù)據(jù)交互接口,可接收解碼元數(shù)據(jù),并提供給用戶交互界面(見圖8),用戶使用遙控器調整對象音量大小、位置等信息并生成控制信號,渲染器根據(jù)元數(shù)據(jù)信號、控制信號對音頻信號實時渲染后通過機頂盒的模擬音頻接口將音頻信號送至不同的揚聲器,在5.1.4多音箱環(huán)境下實現(xiàn)了個性化的聽音體驗。
圖8 Audio Vivid終端用戶交互界面
試驗中提供了三種聽音場景:1. 標準:可實現(xiàn)解說切換+球聲+現(xiàn)場擴聲交互體驗;2. 主客隊氛圍:可實現(xiàn)解說切換+不同陣營球迷吶喊聲切換+球聲+現(xiàn)場擴聲交互體驗;3. 現(xiàn)場氛圍:不同陣營球迷吶喊聲切換+球聲+現(xiàn)場擴聲交互體驗。
試驗系統(tǒng)實現(xiàn)了基于廣播電視直播鏈路的Audio Vivid端到端傳輸,特別是實現(xiàn)了元數(shù)據(jù)從制作到傳輸編碼再到終端解碼渲染的全流程打通,為今后Audio Vivid產(chǎn)業(yè)鏈端側深化研發(fā)提供了寶貴的經(jīng)驗。
NO.6 小結
三維聲在平面聲場的基礎上,增加了垂直方位的聲場,可以對整個聲音空間中的每個聲音精準定位,將聲場還原為更接近真實世界的三維聲場,從而帶來沉浸式的感受。Audio Vivid采用基于神經(jīng)網(wǎng)絡的變換和熵編碼、HOA空間編碼等壓縮編碼技術,可以有效去除三維聲信號間的冗余,在保證編碼質量的前提下節(jié)省傳輸帶寬。此外,通過編碼傳輸特定的對象元數(shù)據(jù),在終端進行揚聲器渲染或雙耳渲染,就可以對單個對象的控制和交互,如語言選擇、音量大小調整等,從而實現(xiàn)聲音的交互化和個性化,極大提升用戶聽音體驗。隨著Audio Vivid技術標準和生態(tài)的進一步完善,用戶將在更多的音頻場景中感受到三維聲帶來的聲臨其境體驗。
[1] ITU-R BS 2051. Advanced sound system for programme production [S]. International Telecommunication Union, 2014.
[2] 國家新聞出版廣電總局. 用于節(jié)目制作的先進聲音系統(tǒng): GY/T 316—2018[S].
[3] ITU-R BS.2076. Audio Definition Model [S]. International Telecommunication Union, 2019.
[4] 國家廣播電視總局. 三維聲編解碼及渲染: GY/T 363—2023[S].
[5] SMPTE ST 2110-30. Professional Media Over Managed IP Networks: PCM Digital Audio [S]. Society of Motion Picture and Television Engineers, 2017.
[6] SMPTE ST 2110-20. Professional Media Over Managed IP Networks: Uncompressed Active Video[S]. Society of Motion Picture and Television Engineers, 2017.上一頁
上一頁
關鍵字: