為語音控制系統降低功耗

作者 : Richard Quinnell

在語音控制中,降低功率的創新技術將持續發展,從而將語音啟動操作的潛力從線性供電到電池供電設計,一路擴展到實際應用...

僅僅使用語音來控制機器的能力已經成為許多商用和消費系統的流行功能了。但是語音控制的問題在於裝置必須始終處於監聽狀態,這意味著必須隨時為其供電。不過,更多的新選擇正不斷湧現,有助於設計人員為其音控設計降低使用功耗。

要讓機器對口語指令做出適當回應,是一項巨大的處理挑戰。系統必須先有麥克風來拾取聲音、數位器將聲音轉換成處理器可以運作的形式,然後進行大量的數位訊號處理,才能從聲音中提取語音資訊。所涉及的處理量將取決於需要辨識的指令字元數量。詞彙量有限的系統可以使用如1所示的結構進行本地處理,以進行單詞檢索,而需要自然語音理解的系統則可使用雲端運算資源,進行更多的處理。diagram of a voice control system

圖1:典型的語音控制系統必須不斷地處理聲音,以尋找指令字詞。(圖片來源:Aspinity

遺憾的是,大多數的時間並不會有任何的語音指令,浪費了處理和所消耗的功率。如果要求用戶先按下按鍵等動作以啟動語音處理,則可以避免這種浪費。但是,如果僅透過語音喚醒以啟動系統,則必須始終擷取並處理聲音,以免錯過任何指令。這使得以電池供電的應用備受關注,因為語音處理的「常時監聽」(always on )本質,可能會消耗大量電池。

為了減少浪費力氣以及節省功率的考量,語音處理系統通常會使用「喚醒」詞來啟動。這種方法所需的功率較小,因為在大多數情況下,語音處理只需要能夠辨識某個特定單詞,而不是全部功能的詞彙。因此,系統可以在監聽喚醒詞的同時,執行較簡單、功耗更少的處理演算法,從而暫停整個語音處理工作,直到檢索到喚醒詞為止。

業界在追尋這種方法時,已經投入大量精力來開發僅需要最小功率的喚醒單詞引擎。通常,這些引擎只能辨別幾個單詞,從而讓用戶選擇可能的喚醒選項。然而,有些引擎能夠辨別足夠多的單詞,以提供有限形式的語音控制,從而提供多個指令。但是,對於更複雜的語音控制,喚醒詞引擎的目的只是為了及時啟動一些更強大、更耗電的處理功能,以接收並詮釋伴隨喚醒詞而來的語音指令。

這些喚醒詞引擎正在不斷發展中。例如,最近市場上推出將Retune的VoiceSpot關鍵詞檢測演算法與CEVA的低功耗數位訊號處理(DSP)系列相結合的配對方案。該組合可以執行波束成形和聲學迴聲消除,以便在出現雜訊時提高單詞辨識以及喚醒詞辨識的可靠性。該演算法的總記憶體佔用量低於80KB,適用於諸如耳塞、智慧手錶和運動相機等更小的電池供電應用。

最近還有另一個方案採用Cyberon的CSpotter演算法,搭配瑞薩電子(Renesas Electronics)的RA6系列微控制器(MCU)。該演算法使用基於音素(phoneme)的建模,支援30多種語言。它可以作為喚醒詞引擎或使用多種不同的指令集,提供本地語音控制。該處理器為數位麥克風提供I2S介面,從而無需使用類比數位轉換器(ADC)。

這兩種方法儘管已盡能地減少語音辨識任務了,但仍必須依靠數位訊號處理來進行喚醒詞辨識。這為「常時監聽」的電源需求設置了下限,因而在電池供電的應用中可能仍然很麻煩。事實上,還有另一種技術可以為「常時監聽」的喚醒詞辨識節省更多功率。

類比機器學習(machine learning)技術是關鍵。Aspinity為此開發了「可重配置類比模組化處理器」(RAMP)晶片,首先將聲音辨識為語音,然後再嘗試確定語音是否提到喚醒詞。RAMP晶片賦予系統的功能是在執行任何語音處理之前,先確定所檢測到的聲音實際上是語音。如2所示,當沒有任何人在說話時,這種預先確定聲音是否是語音的功能,讓喚醒詞引擎能夠持續休眠狀態。diagram of the always-listening RAMP design

圖2:RAMP晶片由於能先確定某個聲音是語音再進行處理,讓語音處理過程得以安全地略過其他聲音類型。(圖片來源:Aspinity

該晶片使用類比神經網路來實現這一目標,該類比神經網路經過訓練可以區別人類的語音以及其他聲音,然後向語音處理系統發送啟動訊號,以確定語音是否在說某個喚醒詞。為了確保語音處理具有完整的語音工作模式,晶片將會在快取開始之前緩衝500毫秒(msec)的擷取聲音。當晶片辨識到聲音為語音時,就會將傳入的聲音(從開始傳送資料之前)引導至語音處理系統以進行解釋。

這種方法僅在RAMP晶片持續供電時才能維持語音控制系統。每當沒有人在講話時,語音處理硬體(包括喚醒詞引擎)就可能保持休眠狀態。在大多數情況下,沒有語音的時段表示系統運行的大部份時間。相較於喚醒字檢測所需的典型數十毫安(mA)電流,RAMP晶片和主機MCU僅需要約25uA的電流。因此,相較於「常時監聽」的喚醒字檢測,忽略靜音和非語音的能力可以節省大量功率。

在語音控制中,這種降低功率的創新很可能繼續發展,從而將語音啟動操作的潛力從線性供電到電池供電設計,一路擴展到實際應用。無論透過語音控制特定裝置是不是個好主意,也無論其電源如何,它都已經成為一種實用的選擇了。

(參考原文:Evaluating sensors for tunable lighting systems,by Yoelit Hiebert)

本文同步刊登於EDN Taiwan 2021年8月號雜誌

活動簡介
未來寬能隙半導體元件會在哪些應用成為主流?元件供應商又會開發出哪些新的應用寬能隙元件的電路架構,以協助電力系統開發商進一步簡化設計複雜度、提升系統整體效率?TechTaipei「寬能隙元件市場與技術發展研討會」將邀請寬能隙半導體的關鍵供應商一一為與會者解惑。
贊助廠商

加入LINE@,最新消息一手掌握!

發表評論