語音辨識(speech recognition)技術並不像你想像的那麼新。業界已對此技術進行了約60年的研究,有成功也有失敗。

1952年,第一個已知的語音辨識系統「Audrey」誕生。這個全類比的系統是由貝爾實驗室(Bell Labs)的K.H. Davis、R. Biddulph和S. Balashek所設計,可以辨別暫停之間的數位字串(是為早期的語音撥號系統而設計),其準確性達到了能夠辨識說話者的程度。為什麼它沒火熱發展起來?原因是,除了非常昂貴而且需要經常維護外,該系統還做在一個六英呎高的繼電器機架上,加上功耗也很大(它是由真空管做成)。

然後,IBM在1961年開發了Shoebox。該機器可以識別出說話者對話筒說的16個單詞,並將這些聲音轉化為電脈衝(圖1)。

20180305NT01P1 圖1 IBM高階系統開發實驗室先進技術小組經理E. A. Quade展示了Shoebox,這是一款60年代對語音命令進行算數運算的實驗機器。(圖片來源:IBM提供)

我們已走了很長一段路!現在雲端處理和巨量資料(big data)已能實現更好的語音辨識和控制(過去我們看到了一些非常原始的語音辨識和控制,但現在正在發展)。本文最後將介紹一些關於汽車GPS導航系統雙向音訊的有趣的新概念。

我最近與DSP Concepts技術長Paul Beckmann進行了交談。我們討論了晶晨半導體(Amlogic)的Alexa參考設計——它將SoC與Sensory的TrulyHandsfree語音喚醒技術結合使用。DSP Concepts仍然致力於加速音訊產品的開發,但Beckmann注意到市場上正在出現許多的基於語音的產品。現代語音辨識的架構設計頗具挑戰性,而良好的麥克風技術——加之完整的軟體演算法套件(DSP Concepts的專長)——是其成功所需的重要專長領域。Audio Weaver這款音訊整合和設計工具,仍然是這個套件的一個組成部分。Beckmann表示,其產品組合由其語音使用者介面(UI)方案領銜,並由Audio Weaver這一可針對用戶所需的不同應用進行定制和最佳化的工具提供支援。

亞馬遜(Amazon)真的把語音辨識帶到了技術的最前端。因為亞馬遜對該技術的雲端資料收集方面感興趣(如「Alexa,為我訂購這個商品」),所以他們鼓勵大眾開發連接到亞馬遜語音服務(AVS)的產品。亞馬遜最近努力認證相容於AVS的參考設計,設計人員可以利用這些參考設計來設計產品。

迄今為止,亞馬遜認證的所有參考設計都需要一個外部數位訊號處理器(DSP),科勝訊(Conexant)、亞德諾(ADI)和其他公司都有基於DSP的解決方案。無論是否有雲端連接都需要SoC,但以前,設計人員需要一個DSP和一個SoC。DSP Concepts的所有軟體解決方案都運作在其中一個SoC核心的一部分,因此不需要單獨的DSP,該公司還擁有第一款基於SoC的軟體解決方案;晶晨半導體這家提供機上盒(STB)、電視機、智慧音箱等參考設計的供應商,是第一家和DSP Concepts合作在市場推出產品的公司。

DSP Concepts的解決方案是獲得亞馬遜完全認可的首個SoC/音訊演算法合作成果,他們提供2個、4個和6個麥克風配置。

低功耗解決方案

Ambiq Micro的微控制器(MCU)用CR2032鈕扣電池供電,可工作一星期以上,並且比目前市場上的其他產品具有更好的語音使用者介面品質。Ambiq Micro、DSP Concepts和Sensory合作,為智慧手錶、耳機、智慧家居終端設備、健康監護儀和穿戴式裝置等可攜式消費類產品的不間斷關鍵字檢測,以及設備內建的命令語句識別提供了新的能效水準。

以下來看看上述提到的語音辨識解決方案的一些細節。

軟體IP

軟體IP包括回聲消除器(AEC)——即使在重播音樂時,也能使麥克風聽到語音命令;到達方向估計——確定語音來自的方向(與波束成形一起使用);遠場波束成形——結合多個麥克風訊號來提高語音辨識的品質。

另外還有降噪——去除背景雜訊和干擾源(如電視和空調),以進一步改善語音辨識;觸發詞——產品識別的喚醒詞,如「Alexa」,以及語音服務整合——後端基於雲端的語音服務。

˙麥克風處理音訊IP

麥克風處理音訊IP涵蓋:注意力處理、降噪、靜音檢測器,以及最佳化的波束成形器。

˙重播處理音訊IP

重播處理音訊IP包括:音量管理、低音增強和對話增強。

˙波束成形器

圖4顯示了採用DSP Concepts最佳化演算法設計的不同的麥克風幾何形狀。

語音使用者介面的性能在很大程度上取決於訊噪比(SNR),亦即在環境中給定其他干擾訊號響度的情況下,人的聲音有多大。DSP Concepts開發了一種最佳化接收訊噪比的波束成形器設計演算法,由於問題的根本是訊噪比,因此他們不是針對特定波束圖進行設計,而是在麥克風陣列的輸出端最佳化訊噪比。因此,使用者可以查看麥克風的幾何形狀、房間中的雜訊級別,甚至對使用的麥克風品質來看SNR有多大,並利用這些資訊進行最佳化(圖2)。

20180305NT01P2 圖2 關注用戶聲音的SNR最佳化的波束成形器圖。上方圖表對應的是2個麥克風陣列。(圖片來源:DSP Concepts)

˙注意力處理(Attention processing)

處理「喚醒詞」的演算法有很多。一個例子是在晶晨半導體的參考設計中,它具有專注於「喚醒詞」、被稱為「注意力處理」的處理演算法。根據環境,該系統能夠知道什麼時候注意、什麼時候忽略事物,這能減少誤報和漏報。該軟體還能模仿人類行為,有時特別關注某事,其他時間則不太關注。

˙高階降噪

這裡的主要挑戰還不是設計回聲消除器,而是處理環境雜訊的方法。在家中可能會有洗碗機在工作、電視或收音機在播放,這些聲音需要以某種方式忽略。解決這個問題有不同的降噪演算法,一些演算法用於處理穩態或平穩雜訊(風扇和空調);另一些則針對定向干擾(收音機和電視)。

在智慧家居中,人們希望空調具有語音使用者介面;但在汽車環境中,存在路噪和發動機雜訊等。

˙靜音檢測器

電池應用需要低功耗處理,因此系統中有個演算法去聽其中一個麥克風的聲音,看是否有事需要注意。一旦檢測到聲音,它就會喚醒系統的其餘部分,以便對聲音進行更高階的處理。

DSP Concepts還擁有完整的交鑰匙軟體解決方案,為正在設計雲端連接系統的設計人員提供全套演算法。

語音使用者介面解決方案

語音使用者介面解決方案如圖3所示。

20180305NT01P3 圖3 DSP Concepts提供了全功能的語音解決方案(除語音辨識和喚醒詞之外,還包括其他一切)。(圖片來源:DSP Concepts)

選擇麥克風陣列

根據設計的特定應用,麥克風陣列有許多不同的幾何形狀,因此DSP Concepts既有內含6或7個麥克風的高階方案,也有針對每種陣列的低成本方案。這些演算法工作得非常好,以至於在雜訊環境下,他們的雙麥克風解決方案在遠場拾音和穩定工作方面勝過了市場上許多採用7個麥克風的解決方案。

許多客戶對能夠實現更低成本系統的雙麥克風解決方案感到滿意——妥協和權衡總是任何設計工作免不了的一部分。Beckmann表示,就像人類只有兩隻耳朵,卻能運作良好(圖4)。

20180305NT01P4 圖4 各種麥克風陣列。(圖片來源:DSP Concepts)

設計驗證

設計的某些部分可能難以調整測試,例如,很難對與音箱麥克風調音不當的某些地方進行調整。因此,為加快設計者的產品上市進度,DSP Solutions利用圖形工具來瞭解問題所在,並進一步最佳化微調系統。

一個例子是系統工作在大聲播放音樂的情況下,麥克風背景雜訊可能過高,導致麥克風削波或達到聲學超載點。雜散諧波可能會漏進,電磁干擾(EMI)問題可以透過高頻抑制,甚至利用拾取混疊回的雜散訊號來解決。DSP Concepts有調試和診斷這些及更多問題的工具,可在設計過程的早期就揪出這些問題,這樣即可避免設計過程後期的硬體反覆運算。

以下是如何用驗證幫助解決問題的一個示例。SoC上的時脈漂移比DSP嚴重。

圖5中上方的圖表是麥克風和揚聲器之間測得的延遲,延遲是在發送測試訊號的同時即時測量(注意資訊隨時間不斷漂移)。在這個例子中,麥克風和揚聲器都是48kHz,但是是兩個不同的時脈,且SoC沒有正確配置,因此回聲消除器需要不斷調整適應這個恆定延遲,每隔20~30分鐘就會有一個音訊丟失,因為已經超限或欠限了,所以這很難調整。

20180305NT01P5 圖5 輸入和輸出時脈不同步,導致延遲隨時間漂移,將會影響AEC性能。(圖片來源:DSP Concepts)

現在,當修正這個問題後,可得到圖6中的曲線。

20180305NT01P6 圖6 現在時脈正確鎖定,AEC按預期執行。(圖片來源:DSP Concepts)

另一個驗證示例是揚聲器失真。揚聲器失真會產生回波消除器無法正確處理的干擾諧波。在圖7中,氣泡代表總諧波失真(THD)的失真百分比。

20180305NT01P7 圖7 揚聲器失真,在600Hz處有強烈共振,導致塑膠外殼變形。氣泡代表不同頻率和重播水準下THD的百分比。(圖片來源:DSP Concepts)

DSP Concepts建議THD低於3%,以獲得足夠裕量。Y軸SPL是揚聲器聲壓級(SPL)或響度水準,因為當揚聲器被驅動到高響度水準時,會達到其偏移極限,而導致失真,所以圖中上方的藍色大氣泡是可以預料的。因此,當揚聲器調音後,壓縮器限幅器可以放進揚聲器本身。

外殼共振也造成600~700Hz範圍內有很多氣泡出現。當揚聲器重播時,塑膠外殼發出哢嚓聲,該聲音直接進入麥克風。當聽這個產品時,因為失真不是透過空氣輻射,而是利用塑膠傳導,所以聲音聽起來很乾淨,這個問題透過在產品內部使用一些泡棉膠帶就可以很容易地解決。

Beckmann表示,許多公司都熟悉揚聲器產品設計,這比麥克風容易得多。這是因為如果揚聲器失真,可以馬上聽到,使用麥克風,聽不到麥克風訊號,因此很多這些問題最終不會被發現,導致最終產品的性能不佳。

智慧音箱以外的其他應用

智慧家居用途包括像恆溫器、電燈開關或牆壁面板系統等發語音命令。當今,在有能力向遙控器發語音命令的地方,使用者也能直接向電視機或機上盒發出語音命令。

在汽車領域,有時候不能在車內使用智慧型手機,因此現在可以轉向更先進的語音介面。為什麼要用幾十個按鈕來調節與控制空調系統或娛樂系統?控制可以容易些嗎?可聽戴設備和穿戴式裝置或帶有Google智慧助理的耳機可以實現這個功能。

有趣的駕駛輔助導航系統雙向音訊應用

在本文討論的DSP Concepts創新解決方案的幫助下,可以將蘋果(Apple)的Siri、亞馬遜的Alexa和OK Google等雙向音訊命令介面,應用於汽車中使用的GPS導航系統。你不知道我喊了多少次、要求澄清、與我車上的GPS系統起爭執,當然,這都是我唱獨角戲。然而,將雙向協助工具整合到軟體中會帶來極大便利——首先會出現在協力廠商電話或筆記型電腦應用中,但最終將會由汽車製造商整合進車載資訊顯示系統。

當然,這裡需要有個「觸發詞」,但是還需要個包括命令和疑問句的基本命令集。另外,為減少估算、運算和搜索的工作量,還增加了一套命令。然後,也可以從許多導航系統中顯示的文本提取資料。

錯誤來源需要解決,例如當發聲不匹配顯示的文本指令時。從一種語言翻譯成另一種語言也可能是下一步。

DSP Concepts的發展藍圖

對講機和電話會議將大大受益於進化中的語音辨識技術,任何曾經坐在會議室、採用這種技術的人都會意識到這種交流是多麼煩人,有了這項新技術,我們終於可以就好像所有成員都在房間裡一樣地交談。

另外一個例子是智慧家居監聽和檢測漏水或煙霧警報,並提醒業主。情境感知和醫療用途也將從這種新的改進技術中受益。

(參考原文:Alexa, can you hear me now? Low power voice interface technology evolves,by Steve Taranovich)