所有這些設備需要一個功能,在極具挑戰性的聲學環境下,無論是否有噪音、吵鬧的音樂或其他背景聲音,都能夠理解用戶的語音命令。前端語音啟動的任務是確保用戶的聲音到達後端時清晰而易懂,進而它可以被處理和理解。以下來看看前端語音啟動如何工作。

20180503TA01P1 前端語音設備大量進入市場。

為後端擷取一個清晰的語音訊號

當你說話時,你的聆聽設備裡面發生了什麼?很多聲音和你的語音一起輸入了設備,需要清晰易懂地抵達目標,在目標裡的後端處理引擎解釋其含義,並且會做出相應的反應。目標可能是一個採用數位訊號處理器(DSP)的語音啟動設備,一個使用基於雲端處理的虛擬助手,或者打電話的另一個人。他們都需要一個乾淨的音訊訊號進行理解和回應。一個好的前端解決方案會採用多種技術來淨化輸入聲音,並且提供清晰易懂的語音給後端。

語音啟動設備的兩個實例是近場和遠場拾音。近場設備佩戴(或穿著)時靠近用戶的嘴巴,像耳機、耳塞、耳戴式和穿戴式裝置。他們通常使用1~2個麥克風,遠場設備可以接收穿過房間的用戶聲音,通常有3~8個麥克風。常見的這類設備有智慧音箱、智慧家電、語音啟動物聯網(IoT)和手機。多個麥克風陣列用來進行波束成形(Beamforming),它透過聲音訊號抵達不同麥克風的時間差異來估計訊號源的方向,這使得該設備可以只接收來自用戶方向的聲音,而忽略其他音源。波束成形也可用來追蹤演講者和從多個聲音組合中分離出正確的語音訊號,就像在會議室裡打電話。

為了得到一個可理解的語音樣本,這裡有兩種類型的聲音必須被過濾掉,一個是聆聽設備自身產生的聲音,另一個是外部聲音。當設備產生聲音時,例如智慧音箱播放音樂或者和另一端的人通電話,可以採用回聲消除(AEC)技術忽略自己的聲音。這個特性可以「插入」,或打斷智慧音箱,即使在它處在播放音樂,或者回應較早前命令的過程中。一旦這些回聲被消除後,雜訊抑制演算法可以用於清理外部雜訊。接下來必須對乾淨的聲音樣本進行編碼,最後交給後台處理用於語義的理解。

對低功耗的高要求

實現波束成形、回聲消除和雜訊抑制都需要複雜的演算法和大量的訊號處理。然而,語音啟動技術開始進入最小型化的設備,像緊緊黏在耳朵裡的耳戴式設備,解決方案的功耗和成本效益正變得至關重要。電池壽命是耳機、可攜式智慧音箱、手機和穿戴式裝置最關鍵的因素之一。低功耗特性對於車載娛樂和家庭安全系統來說也十分重要。

如果有這麼多的工作要做,為什麼不把語音訊號傳輸到雲端進行處理?雲端處理在這種情況下並沒有幫助,前端處理必須在設備上執行,否則延遲和節能將成為一個問題。因此,前端處理必須極其有效且不影響品質。為了達到這一目標,需要在軟體和硬體上進行高性能和低功耗的最佳化。

當然,後端處理在某些情況下可能會傳送訊號到雲端。然而,由於有越來越多的考慮關於增加隱私性、改善安全性、減少延遲和降低功耗,因此在設備上進行後端處理也被優先採用。

ClearVox綜合前端軟體解決方案

CEVA利用多年的經驗和音訊專業知識來應對這些挑戰。ClearVox是一個先進的軟體包,為語音啟動設備提供增強的語音清晰度,專門針對CEVA-TeakLite-4和CEVA-X2音訊/語音DSP進行授權。ClearVox針對整個語音啟動和語音互動市場提供語音拾取前端處理方案,從智慧音箱,到先進的耳機和物聯網設備。

20180503TA01P2 CEVA方案為前端設備提供良好收音效能。

ClearVox涵蓋近場和遠場應用,可以支持最具挑戰性的低功耗設備(例如耳戴式設備),以及可以支持用戶距離大於10公尺的高性能的設備。軟體包包含多個演算法,例如波束成形、波達方向、雜訊抑制和回聲消除。它通常提供12dB訊噪比(SNR)以提高、改善噪音環境下的語音識別率,支持在播放音樂和快進時插入,可以應用於嵌入式和基於雲的語音識別系統中。

20180503TA01P3 ClearVox系統架構。(圖片來源:CEVA)