欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

網(wǎng)易云信神經(jīng)網(wǎng)絡(luò)音頻降噪算法:提升瞬態(tài)噪聲抑制效果,適合移動端設(shè)備

2021-08-20 16:16
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) Synced 機(jī)器之心

機(jī)器之心專欄

網(wǎng)易云信音頻實(shí)驗(yàn)室

網(wǎng)易云信音頻實(shí)驗(yàn)室自主研發(fā)了一個(gè)針對瞬態(tài)噪聲的輕量級網(wǎng)絡(luò)音頻降噪算法(網(wǎng)易云信 AI 音頻降噪),對于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了語音信號的損傷程度,保證了語音的質(zhì)量和理解度。

基于信號處理的傳統(tǒng)音頻降噪算法對于 Stationary Noise(平穩(wěn)噪聲)有比較好的降噪效果。但是對于 Non-stationary Noise(非平穩(wěn)噪聲),特別是 Transient Noise(突發(fā)噪聲)降噪效果較差,而且有些方法對于語音也有較大的損傷。隨著深度學(xué)習(xí)在 CV(Computer Vision)上的廣泛應(yīng)用,基于神經(jīng)網(wǎng)絡(luò)的音頻降噪算法大量涌現(xiàn),這些算法很好的彌補(bǔ)了傳統(tǒng)算法對于 Non-stationary Noise 降噪效果不好的問題,在 Transient Noise 上也有較大的提升。

但是,基于神經(jīng)網(wǎng)絡(luò)的音頻降噪在計(jì)算復(fù)雜度上存在挑戰(zhàn)。雖然我們生活中的終端設(shè)備的計(jì)算能力在不斷提升,比如個(gè)人筆記本、手機(jī)等,但是大模型的深度學(xué)習(xí)算法,很難在絕大部分設(shè)備(特別是不含 GPU 的設(shè)備)上運(yùn)行。目前也有一些開源的、基于神經(jīng)網(wǎng)絡(luò)的低開銷降噪算法[1,2,3],能夠在大部分終端設(shè)備上達(dá)到實(shí)時(shí)運(yùn)行的標(biāo)準(zhǔn)。但是這些算法的運(yùn)算量對于 RTC(實(shí)時(shí)通信)的 SDK 依然太大,其原因是 SDK 中包含了大量算法,每個(gè)子算法的開銷都必須嚴(yán)格把控,才能保證整個(gè) SDK 的運(yùn)算開銷在一個(gè)合理范圍,并且能夠在大部分終端設(shè)備上運(yùn)行。

針對上述挑戰(zhàn),網(wǎng)易云信音頻實(shí)驗(yàn)室自主研發(fā)了一個(gè)針對瞬態(tài)噪聲的輕量級網(wǎng)絡(luò)音頻降噪算法(網(wǎng)易云信 AI 音頻降噪),對于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了語音信號的損傷程度,保證了語音的質(zhì)量和理解度。與此同時(shí),云信的 AI 音頻降噪將計(jì)算開銷控制在一個(gè)非常低的量級,達(dá)到了和傳統(tǒng)算法接近的計(jì)算量,比如 MMSE [4]。目前,網(wǎng)易云信的 AI 音頻降噪已經(jīng)成功落地在其自研的新一代音視頻技術(shù)架構(gòu)(NERTC)中,在大幅提升降噪效果的同時(shí),也在大多數(shù)終端機(jī)型上成功應(yīng)用,包括了大部分中低端機(jī)型。

本文介紹的內(nèi)容,即網(wǎng)易云信音頻實(shí)驗(yàn)室發(fā)表于 INTER-NOISE 2021 的《A Neural Network Based Noise Suppression Method for Transient Noise Control with Low-Complexity Computation》一文,本篇文章詳細(xì)介紹了在基于深度學(xué)習(xí)的音頻降噪算法中,如何在低計(jì)算開銷的情況下,實(shí)現(xiàn)對不同噪聲,包括 Transient Noise 的抑制。

方法

在介紹算法細(xì)節(jié)之前,我們需要先在數(shù)學(xué)上來構(gòu)建一下問題模型。在公式(1)中,x (n) 、s (n) 、和 d (n)分別代表帶噪信號、干凈語音信號和噪聲信號。

帶噪信號x (n)代表麥克風(fēng)在實(shí)際場景中所收集的信號,其中n代表時(shí)域采樣點(diǎn)。我們對公式(1)做一個(gè) STFT(短時(shí)傅里葉變化)得到(2),

其中

分別代表x (n) 、s (n)和 d (n)的頻域信號,i代表第

時(shí)域幀,k代表頻點(diǎn)。由此我們可以得出公式(3),

代表估計(jì)出的語音信號,

表示估計(jì)出的 Gain 大小。至此,我們的降噪問題就是需要去估計(jì)出一個(gè)準(zhǔn)確的

特征表示

為了要實(shí)現(xiàn)低計(jì)算量的目的,我們需要最大限度的去壓縮模型大小,這樣必然導(dǎo)致在同等狀況下,壓縮后模型的表現(xiàn)會更差。為了彌補(bǔ)模型變小后帶來的效果下降,該研究從輸入特征(Input Feature)入手,選擇更能代表語音特性的特征,從而去區(qū)分語音和噪聲。當(dāng)然特征大小(Feature Size)也需要嚴(yán)格控制,共同保證低計(jì)算量的要求。現(xiàn)在開源的單通道深度學(xué)習(xí)降噪算法中,比較普遍的 Feature 是用信號的 Magnitude 和 Phase,或者直接用頻域信號的 Complex Value。這樣的做法好處是可以保證模型能獲得所有的頻域信息,沒有任何信息丟失;但是缺點(diǎn)是這些頻域信息對于語音信號和噪聲信號的分離度不夠,而且輸入的參數(shù)量偏大。方法 [1] 中用到了 Pitch Correlation(基音相關(guān)性),

表示求信號的相關(guān)性,

表示 Pitch Correlation。Pitch Correlation 能夠突出語音信號的特性,能在噪聲中將語音信號分離出來。Pitch Correlation 在平穩(wěn)噪聲上有著很好的表現(xiàn),但是一旦出現(xiàn)非平穩(wěn)噪聲,由于 Pitch Correlation 只包含幀內(nèi)信息,這時(shí)候就無法區(qū)分分平穩(wěn)噪聲和語音了。還有一種情況,當(dāng) SNR(信噪比)比較小時(shí),時(shí)域的自相關(guān)性受噪聲影響大,容易導(dǎo)致其判斷不準(zhǔn),從而產(chǎn)生誤差。針對以上問題,我們提出了諧波幀間互相關(guān)性(Harmonic-Correlation),

其中

之前

幀的 Magnitude。對于

該研究分兩步來討論它的優(yōu)勢。首先,對頻域 Magnitude(

)做自相關(guān)(Auto-Correlation)可以突出諧波特性(類似于 Spectral Sharpening 或者 Reverse Whitening),對于語音信號中的諧波特性,可以更容易的凸顯出來。其次,把自相關(guān)換成和前

幀的 Magnitude 做互相關(guān)(Cross-Correlation)可以增加幀間的信息,語音信號的諧波相比一些突發(fā)噪聲具有更長的連續(xù)性,以此可以將一些突發(fā)噪聲從語音信號中區(qū)分開。

另外一個(gè)和

相似的特征是 Coherence,公式如下,

可以看出,Coherence 也可以突出信號中的諧波信息,不同之處在于它也是基于時(shí)域的相關(guān)性,而且增加了歸一化處理。

損失函數(shù)

Valin 在 [1] 中提出了一種損失函數(shù),

其中

代表 Gain 值的 Ground Truth,

代表估計(jì)出的 Gain 值。

通過平方的 Error 值,在訓(xùn)練過程中不斷調(diào)整模型收斂方向,并且通過四次方的 Error 值去加強(qiáng)微調(diào)能力,讓收斂后的模型最終的損失能夠進(jìn)一步減小。

在研究過程中研究發(fā)現(xiàn),雖然

有著較好的調(diào)節(jié)能力,但是存在兩個(gè)問題。第一個(gè)問題是

容易陷入局部最小值,由于平方過后 Error 值偏小,導(dǎo)致很難逃出這個(gè)區(qū)間。第二個(gè)問題是四次方的部分有時(shí)在實(shí)際信號中不好控制,在最終收斂時(shí)會因?yàn)镃值過大而產(chǎn)生誤差。因此,該研究在

的基礎(chǔ)上提出了

,

中,我們可以根據(jù)需要去調(diào)節(jié)

的大小,從而減小陷入局部最小值的概率,并且最大程度的減小收斂后的最終誤差。經(jīng)過計(jì)算,

的值從 0 增加的 5 的時(shí)候,最終 Loss 值達(dá)到最小,但是由于

的增加會導(dǎo)致計(jì)算量的增加,最終收益最大的

值為 3。

學(xué)習(xí)模型以及實(shí)時(shí)處理

該研究沿用了 [1] 中 RNN-GRU 模型,原因是 RNN 相比其他學(xué)習(xí)模型(例如 CNN)攜帶時(shí)間信息,可以學(xué)習(xí)到數(shù)據(jù)中前后在時(shí)序上的聯(lián)系。該研究認(rèn)為這種聯(lián)系在語音信號上非常重要,特別是在一個(gè)實(shí)時(shí)的、幀長相對較短的語音算法中。模型的結(jié)構(gòu)如 Fig.1 所示。訓(xùn)練后的模型會被嵌入網(wǎng)易云信的 SDK 中,通過讀取硬件設(shè)備的音頻流,對 Buffer 進(jìn)行分幀處理并送入 AI 降噪預(yù)處理模塊中,預(yù)處理模塊會將對應(yīng)的 Feature 計(jì)算出來,并輸出到訓(xùn)練好的模型中,通過模型計(jì)算出對應(yīng)的 Gain 值,對信號進(jìn)行調(diào)整,最終達(dá)到降噪效果(Fig.2)。

Figure 1: GRU模型。Figure 2: 訓(xùn)練和實(shí)時(shí)處理框圖。

測量結(jié)果和討論

在測試階段,該研究首先建立了和 Training/Validation 完全不同的一個(gè)測試集。在對比項(xiàng)上,選擇了 [4] 作為傳統(tǒng)信號處理的降噪算法代表。在基于深度學(xué)習(xí)的算法中,研究者首先選擇了 RNNoise[1],以此來評估優(yōu)化所帶來的效果提升。其次,該研究選擇了 DNS-Net[2]和 DTLN[3]當(dāng)下兩個(gè)熱度很高的實(shí)時(shí) AI 降噪算法來作為對比項(xiàng)。

(a)Noisy signal (5dB SNR)Fig.3 展示了一段 Keyboard Noise 下的降噪前后對比。Keyboard Noise 作為 Transient Noise 中的一種,是在 RTC 場景中非常容易遇到的噪聲。比如在一個(gè)在線會議中,會議中的任意一位參會者在用鍵盤記錄會議信息時(shí),都會讓這個(gè)會議陷入鍵盤噪聲中。Fig.3 展示的是在 5dB SNR 場景下的情況。從圖中可以看出,網(wǎng)易云信 AI 降噪在非語音部分,對鍵盤噪聲的壓制極大,基本全部消掉;在和語音重合部分,雖然沒有完全消掉,但是也有明顯抑制,并且保護(hù)了語音質(zhì)量。

在 RTC 場景中,當(dāng)降噪后 SNR 達(dá)到 20dB 以上,3-4dB 的差值對于聽感來說差異較小。所以該研究在調(diào)試中把降噪量穩(wěn)定在一個(gè)范圍內(nèi),然后盡量去追求更高的語音理解度(STOI[5])和語音質(zhì)量(MOS[6])。Table 1 展示了云信 AI 降噪和對比項(xiàng)之間的量化對比。從結(jié)果中可以看出,網(wǎng)易云信自研的 Feature 和 Loss Function 在整體上呈現(xiàn)對語音保護(hù)更好,降噪量略小。其中,

對語音質(zhì)量保護(hù)最好,在降噪量上也在可接受的范圍內(nèi)。Table 2 展示了

在不同噪聲類型上的表現(xiàn)。在 Keyboard 噪聲中,雖然在低 SNR 的情況下降噪量提升不明顯(RTC 場景中,持續(xù)低信噪比的 Transient Noise 場景出現(xiàn)頻率較低),但是在 10dB SNR 以上的場景中,降噪量和其他噪聲接近,并且保持著很好的語音質(zhì)量。該研究也定性的測試其他的 Transient Noise,降噪量和語音質(zhì)量都保持在很穩(wěn)定的水平。

網(wǎng)易云信的 AI 降噪在 10ms 的音頻幀數(shù)據(jù)(16kHz 采樣率)中只需要約 400,000 次浮點(diǎn)計(jì)算,經(jīng)過云信自研的 AI 推理框架 NENN 加速,在 iPhone12 上每 10ms 的運(yùn)算平均時(shí)間低于 0.01ms,峰值時(shí)間低于 0.02ms,CPU 占比小于 0.02%。

總結(jié)

綜上所述,網(wǎng)易云信 AI 降噪實(shí)現(xiàn)了一個(gè)輕量級的實(shí)時(shí)神經(jīng)網(wǎng)絡(luò)音頻降噪算法。它在 Stationary 和 Non-Stationary Noise 上都有很好的效果,對于業(yè)界的難點(diǎn) Transient Noise 也有很好的抑制效果;與此同時(shí),相較同類 AI 降噪算法,云信 AI 降噪對語音質(zhì)量有著更好的保護(hù)。

自成立以來,網(wǎng)易云信音頻實(shí)驗(yàn)室除了保障產(chǎn)品的算法研發(fā)和優(yōu)化需求之外,已提交專利數(shù)十項(xiàng)。接下來,網(wǎng)易云信音頻實(shí)驗(yàn)室將在基礎(chǔ)算法、模型方面加強(qiáng)研究,結(jié)合具體行業(yè)和應(yīng)用場景,以技術(shù)創(chuàng)新引領(lǐng)產(chǎn)品創(chuàng)新。

參考文獻(xiàn)

1.J.M. Valin, "A hybrid DSP/deep learning approach to real-time full-band speech enhancement," 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018.

2.Y. Xia, et al, "Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement," ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

3.Westhausen, Nils L., and Bernd T. Meyer. "Dual-signal transformation lstm network for real-time noise suppression." arXiv preprint arXiv:2005.07551 (2020).

4.Y. Rao, Y. Hao, I.M. Panahi, "Smartphone-based real-time speech enhancement for improving hearing aids speech perception," 2016 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE, 2016.

5.C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “A short-time objective intelligibility measure for time-frequency weighted noisy speech,” in IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 4214– 4217, 2010.

6.Nilsson, Michael, Sigfrid D. Soli, and Jean A. Sullivan. "Development of the Hearing in Noise Test for the measurement of speech reception thresholds in quiet and in noise." The Journal of the Acoustical Society of America 95.2 (1994): 1085-1099.

原標(biāo)題:《網(wǎng)易云信神經(jīng)網(wǎng)絡(luò)音頻降噪算法:提升瞬態(tài)噪聲抑制效果,適合移動端設(shè)備》

閱讀原文

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司