雜訊抑制 vs. 主動降噪:有何不同?

作者 : Charles Pao,CEVA資深行銷專員

雜訊抑制與主動降噪(ANC)這兩項功能已十分普及,但這些技術以相異但同樣重要的方式降低雜訊所產生的影響。本文將說明箇中差異,同時深入探討其雜訊抑制層面...

想像您在機場打電話給朋友。周遭的人都在講話、飛機起飛和降落、數十個行李箱滑過瓷磚地板,此外可能還有幾個嬰兒在啼哭。電話另一頭的朋友身處高朋滿座的餐廳中。朋友身邊也有必須相應處理的環境噪音,例如餐具和盤子的碰撞聲、其他人的談話聲、背景音樂,可能還夾雜著嬰兒的哭聲。但是對話的兩端卻不再是嘈雜混亂的聲音,而是平靜且清晰的交談。

noise suppression and active noise cancellation

這一切都要歸功於雜訊抑制與主動降噪(ANC)。在目前的音訊產品中,這兩項功能已十分普及,但此類功能不只是流行用語而已。這些技術以相異但同樣重要的方式降低雜訊所產生的影響。本文將說明箇中差異,同時深入探討其雜訊抑制層面。

雜訊抑制

一起來看看方程式的第一部份:您在嘈雜的環境中對著麥克風說話。

graph showing noise suppression when baby crying

在此範例中,車輛會發出一致的背景噪音。這就是所謂的穩態雜訊,也是我們不想要的重複模式雜訊。空調、飛機、汽車引擎和風扇都屬於穩態雜訊的範例。然而,嬰兒哭鬧時並不會發出穩定且一致的聲音,所以很貼切地命名為非穩態雜訊。其他例子還包括哈士奇的嚎叫、使用電鑽或錘子時所發出的聲音、鍵盤敲擊聲或是餐廳裡不鏽鋼餐具的叮噹聲。這種噪音來得快,去得也快。

麥克風可以捕捉這兩種類型的雜訊,無須任何處理,就能在您原本的訊息上產生同樣嘈雜的輸出。如同圖左所示。然而,雜訊抑制功能會消除背景雜音以傳輸您的聲音,而且僅傳輸您的聲音。

主動降噪

現在,您清晰的聲音已透過空氣傳送到朋友的那一頭,但他們仍然得面對是否能清楚聽見的挑戰。這就是主動降噪功能派上用場的時候了。

graph showing noise suppression when baby crying

就像以前一樣,穩態雜訊和非穩態雜訊會影響透過耳機傳入的聲音。與之前的雜訊處理方式不同,主動降噪旨在完全消除外部雜訊以進行減輕。麥克風會捕捉傳入的聲音,並且產生惱人雜訊的反向訊號及播放,以盡可能地中和聲波。以高層次的概念來說,就像是將+5和-5相加得到0。

這種主動降噪的一般原理可以透過兩種主要方式搭配硬體一起使用。其一為前饋 ANC,麥克風位於耳機外側,另一種是反饋ANC,麥克風位於耳機內側,更靠近耳朵。

前饋ANC由於位在耳外,因此對雜訊更敏感。當它靠近聽戴式裝置時,就能清楚地蒐羅雜訊。其接收雜訊後就會開始處理並輸出相位相抵訊號。這使其能夠隔離特定聲音,尤其是中頻範圍的聲音。其中包括我們先前在文章中提到的穩態雜訊,以及說話的聲音。但是,位於裝置外的前饋 ANC 更容易受到外部雜訊的影響,例如風聲或耳機持續與連帽衫側面摩擦的聲音(這絕對不是經驗談)。

位於耳機內側的反饋ANC則不會受礙事的連帽衫影響,而且還能抵抗其他類型的突發干擾。此種遮蔽聲音的效果很好,但不太能消除透過耳機傳來的較高頻率聲音。同樣地,內部反饋麥克風也需要區分播放的音樂與雜訊。而且,由於其反饋(嗯嗯?) 更接近耳朵,需要更快速地處理此資訊,才能維持與前饋設定相同的延遲。

最後,還有混合式主動降噪(沒錯,您猜對了),這種設計結合前饋及反饋ANC,以功耗和硬體成本來創造兩全其美的優勢。

深入瞭解雜訊抑制

瞭解雜訊抑制 (為遠端聽者抑制說話者周遭噪音) 與主動降噪 (為自己消除聽者周遭的噪音) 之間的根本差異後,現在來探討如何完成雜訊抑制。

方法之一是使用多個麥克風來抑制資料。當裝置從多個位置收集資料時,會取得相似 (但仍不同) 的訊號。距離嘴巴較近的麥克風所收到的語音訊號明顯比輔助麥克風更強。兩個麥克風都接收到類似強度的非語音背景訊號。從較強的語音麥克風減去輔助麥克風的聲音,您就可以得到大部份的語音資訊。麥克風之間的距離越遠,就越能使用這個簡單的運算法抑制雜訊,因為較近和較遠的麥克風之間訊號差異會更大。但是,當您不說話或預期的語音資料隨時間發生變化時 (例如,您正在走路或跑步,同時手機一直在晃動),這種方法的效果會降低。多麥克風雜訊抑制當然很強大,但有其他硬體和處理上的缺點。

如果我們只有單一麥克風,會發生什麼事?在不使用額外音源加以驗證/比較的情況下,單一麥克風解決方案仰賴於對其接收到的噪聲的理解及進行過濾。這與先前的穩態雜訊和非穩態雜訊定義有所關聯。穩態雜訊可透過DSP演算法有效過濾,但非穩態雜訊需要深度神經網路(DNN)的協助。

此方法需要使用資料集來訓練網路。該資料集由不同的雜訊 (非穩態和穩態) 及清晰的語音所組成,以建立合成嘈雜語音模式。將其輸入DNN後,就會輸出清晰的語音。這會建立遮罩或神經網路模型,能夠消除雜訊,僅輸出清晰明確的語音。

就算使用訓練過的DNN,仍會有需要考量的挑戰和指標。如果想以低延遲的方式即時執行,您會需要大量處理效能,或是較小的DNN。DNN中的參數越多,執行的速度就越慢。音訊取樣率對語音抑制有類似的影響。取樣率越高代表DNN需要處理的參數越多,但也能獲得更高的輸出品質。為了即時抑制雜訊,窄頻語音通訊是理想的選擇。

此流程中的所有處理作業相當密集,雲端善於完成這類工作,但是這種方法會顯著增加延遲。人類能確實察覺到大約108毫秒的延遲,因此會增加延遲的雲端並非理想的做法。但是,我們需要做些巧妙的調整,才能在邊緣執行DNN。例如,CEVA一直致力於讓我們在聲音和語音方面的能力臻於完美。這包括經現場驗證的語音清晰度和指令識別演算法,即使在邊緣也能提供清晰的通訊和語音控制。

加入LINE@,最新消息一手掌握!

發表評論