十多年前,一家大型智慧手機製造商開發出了一款具有10麥克風陣列的智慧型手機樣機。這款手機可以選擇和聽取人群中某個人的話音——這種令人驚奇的功能明顯具有很大的市場潛力。但該公司預測這樣的設備在現場使用六個月之內,當中有90%會發生故障,十個麥克風組合產生的這種脆弱扼殺了這個概念,並且提醒人們麥克風的本質是一種機械元件。

這個挫折現在看來似乎不可避免。隨著電子設備變得越來越智慧和流行,過去10年基於螢幕的使用者介面已經跟不上潮流。大量新興的「萬物智慧(Smart Everything)」設備——智慧型手機、喇叭、電視機、可穿戴/可聞設備、燈泡、廚房電器、聯網/自動駕駛汽車、機器人、無人機、虛擬/增強現實,以及整座大樓——要求某種形式的交互,這種交互與各種尺寸的螢幕比起來要求更不起眼、更加直觀。語音介面顯然是一種很好的候選方案,而麥克風陣列則是其中的關鍵元件。

如何以超低成本設計可穿戴式產品?ARM Design Start提供簡單快速的解決方案!

但我們怎樣才能避免上述手機樣機的缺點呢?我們如何才能讓這些麥克風陣列可靠工作更長的時間?第一步是要理解電容式MEMS麥克風架構內在的問題,最終我們會了解只有改為壓電式MEMS才能真正解決問題。

陣列和人耳

與大多數哺乳動物一樣,人類都有兩隻耳朵。它們的形狀和位置可以讓我們在周圍環境中找到聲源。這個功能是如此自然,以至於當我們聽到意外的聲響時,我們都會轉動身體來説明我們定位發聲的地方。這種身歷聲的聲學功能是一種與生俱來的輔助能力,有助於保護人類自身的安全,這也證實了定向音訊的強大功能。

先進的MEMS麥克風在不斷改進。我們可以用複雜處理演算法搭建構很大的麥克風陣列,用於查明聲音的出處、定位特定的來源(比如某個人的聲音),或者有針對性地忽略無用的聲音(比如通風機的轟鳴)。這些麥克風陣列給我們提供了極其豐富的聲學體驗,使我們能夠更好地理解週邊環境,並作出更好的控制。

這是怎麼實現的呢?由於聲音是以有限的速度傳播的,通過麥克風陣列的聲波的波陣面會以很小的時間差到達每個麥克風。我們可以利用這個時間差對原始聲音作三角測量,如果一隻狗在我的左手邊叫,我的左耳會比右耳更早地聽到狗叫聲,並且聽到的聲音更大。人腦透過自發解碼這些訊號識別狗的位置。

20170531NT01P1 圖1 用兩個耳朵(左邊)和兩個麥克風(右邊)實現定向聽音。

我們可以將這個原理擴展到更大的陣列,從亞馬遜Echo中的7個麥克風一直到Squarehead Technology AudioScope的300多個麥克風。AudioScope是一種具有超高靈敏度的碟片狀陣列,當安裝在封閉籃球館上方30英尺高度時,它能從人群中擷取到助理教練吹泡泡糖的聲音。

20170531NT01P2 圖2 Squarehead Technology的AudioScope陣列(左)和控制器(右)。(圖片來源:Squarehead Technology)

麥克風陣列的用途遠不止提高我們的聽力。每個大一點的技術公司現在都在重點投資計算語言領域——教會我們的聯網設備理解自然的人類語言。但為了以我們的方式理解語言,它們也必須聽得像我們一樣清楚。它們必須模擬我們天生就具有的方向性的、長距離的聽力能力。

想像一下「陣列話筒(Arrayphone)」——一種佈滿了麥克風、功能強大、方便攜帶、人人都會有的未來設備,你在日常生活中會如何使用呢?

1.你出門前正在換衣服,陣列話筒離你有10英尺遠。你的兩隻手都沒空,但你有問題要問,有事要做。今天天氣冷嗎?會不會下雨?你會見誰?當你離開家門時,燈是不是關了,門上鎖了沒有?

2.你正在一個嘈雜的房間中與朋友聊天,你無法聽清楚。你將耳機插入陣列話筒,並要求它降低背景雜訊。它會找到你的同伴並使同伴的聲音變得清晰起來,將外界雜訊遮罩掉。

3.你的汽車發出奇怪的聲音,你感覺很不安全。你可以打開引擎蓋,拿出你的陣列話筒。它會告訴你這個聲音是汽車的哪個元件發出來的,然後建議你如何修理。

20170531NT01P3 圖3 亞馬遜的Echo(左)、ClearOne的波束成形麥克風陣列(中),GFaI的聲學照相機(右)。(圖片來源:Amazon、ClearOne、GFaI)

上述這些場景可不是科幻小說。圖3顯示了針對每種需求已經製造出來的實際產品。它們可能很粗糙、笨重或昂貴,但一定很有前途,技術會不斷地改進。麥克風陣列在電腦化我們的世界中扮演著極其重要的角色。

用電容式MEMS麥克風製造普通陣列

我們的主要問題是如何迎接安裝有大麥克風陣列的智慧設備不可避免的爆發式增長。過去15年來一直主導市場的電容式MEMS麥克風很容易被普通環境污染物(比如水、灰塵和顆粒物)損壞。

電容式MEMS麥克風非常適合在單個或小型陣列中使用,但大型陣列會使問題複雜化,原因有:

1.堆疊概率。雖然單個電容式MEMS麥克風的故障率可能是可以接受的,但在十個麥克風陣列中至少一個麥克風發生故障的概率就大很多。麥克風陣列需要依靠陣列中的每個麥克風都正常才能工作,壞掉一個麥克風會使其性能急劇下降。

2.明顯故障。如果有一點點灰塵進入單個麥克風系統中的麥克風中,它將降低這個麥克風的靈敏度。大多數系統將通過提高增益來進行補償——導致更高的本底雜訊——但故障可能不是很明顯。然而,大型陣列通常會將靈敏度改變解釋為方向性線索。大型陣列的額外功能(如定位聲源)可能變得顯著受損。

3.機械要求。大多數設備在設計時會對麥克風加上某些防護措施以防止其受到機械損害。為了在同樣的空間中安裝進更多的麥克風,必須對麥克風的位置和方向作出折中。大型陣列的波束成形通常要求將麥克風安裝在更加容易受到傷害的位置,比如話筒的外部角落,這會增加它們發生故障的概率。

所有這些因素都導致令人沮喪的結論:「如果我們銷售這種人們喜愛的、令人稱奇的技術,它會早早掛掉,而且很頻繁。」

20170531NT01P4 圖4 亞馬遜的Echo麥克風陣列及麥克風網的放大圖(左)、iPhone 6S後置麥克風及麥克風網的放大器(右)。

不過這也不能阻止使用電容式MEMS麥克風陣列的設備的銷售,因為陣列太有用了,無法被人們忽視,因此要求採用大量的妥協和變通方法來防止電容式麥克風陣列受到水和灰塵的傷害,包括:

1.使用防護網。用防護網覆蓋麥克風的聲學埠(將麥克風暴露在外部世界的那個孔洞)可以提高麥克風抵禦灰塵的能力。如果網眼足夠小,它可以極大地減慢液體進入聲學口的速度,因為液體的表面張力會在網上形成球體,減慢液體滲透速度。

雖然防護網有助於滿足最低的可靠性要求,但它不是一種長期的解決方案。灰塵和塵垢會在網的表面累積,阻塞聲學埠,降低麥克風的靈敏度。粗網擋不住很細的顆粒(微米級別),這些顆粒會堵在靜電極板之間,最終使麥克風失效,而且一些表面活性劑——具有低表面張力的液體,包括肥皂水和洗滌劑——能夠無阻礙地直通防護網。

透過提高網的密度能使防護網保護更加有效。然而,這會帶來副作用,即降低麥克風的靈敏度和訊噪比(SNR)。即使在被顆粒物堵塞之前,防水網導致訊噪比的下降幅度也可能高達6dB,這種保護和性能之間的妥協是防護網保護方案的根本性缺陷。

20170531NT01P5 圖5 用柔性薄膜密封後的MEMS麥克風橫截面圖。

2.使用柔性薄膜。保護麥克風的一種更為直接的方法是用薄膜進行密封。這種薄膜採用軟性材料(比如矽橡膠)製作,足夠大足夠柔軟,並且允許聲波通過。只要薄膜具有穩定的機械屬性,就能提供長期保護。

這種方法也有很大的缺點。每個麥克風要求大而深的薄膜,使得設備的工業設計變得複雜,而薄膜的剛性和諧振特性又嚴重影響麥克風的訊噪比和頻率回應。因此保護薄膜不適合高性能應用使用。

20170531NT01P6 圖6 MEMS麥克風在iPhone 7上的位置。(圖片來源:蘋果,由Vesper重點標注)

3.創建更小的陣列。智慧手機製造商已經生產出具有6、8和10個麥克風的概念手機,這些新加的麥克風是一種實實在在的改進。不過現在還沒有人銷售採用大型陣列的手機,製造商的這種不情願應該與電容式MEMS麥克風的脆弱性有關。更少的麥克風意味著更低的故障統計概率,而且有更多的空間仔細定位和保護每個麥克風;更小的陣列——無法使用先進的波束成形——是這種保守主義的結果。更堅固的麥克風才能支援更大更強的陣列。

20170531NT01P7 圖7 遠距離使用的亞馬遜Echo(左)、握在手裡用的亞馬遜Tap(右)。(圖片來源:亞馬遜)

4.限制陣列在室內環境使用。現在已經有產品使用大型陣列來回應穿過房間的語音命令。它們是新一代免提語音周邊設備的開路先鋒,但它們只能在室內工作,具有語音介面的可攜式設備也有,但它們只有一個麥克風,並且只有幾英尺的收聽距離。我們隨時隨地可以使用的緊湊型陣列需要能夠應對更髒、不容易受控的環境,電容式MEMS麥克風的脆弱性限制可部署這些陣列的部分。

這些環境需要將電容式MEMS麥克風硬塞進麥克風陣列。電容式MEMS麥克風依賴於與1916年就開始使用的電容麥克風相同的工作原理,它們的工作原理也是它們脆弱性的根源。

20170531NT01P8 圖8 電容式MEMS麥克風的頂視圖(左)和橫截面圖(右)。

圖8顯示了組成電容式MEMS麥克風的背板和隔膜的橫截面。隔膜受到聲壓會發生變形,進而改變與背板之間的間隙(和電容),最終產生代表聲音的電氣訊號。

20170531NT01P9 圖9 各種故障模式下的電容式MEMS麥克風:正常(左上)、灰塵/顆粒損壞(右上)、進水(左下)、黏合故障(右下)。

這個間隙對於電容式MEMS麥克風的功能來說至關重要,但也會造成許多故障模式,包括:

1.顆粒損壞。細灰塵會進入間隙並積聚起來,最終妨礙隔膜的運動。

2.因進水發生黏合損壞。如果水進入麥克風,它會形成一個薄膜,將隔膜拉向背板。隨著水的蒸發,這種拉動作用越來越強,最終隔膜和背板會永久黏連在一起。

3.由於機械衝擊或聲學超載而發生黏合。突然的加速或太大的聲音(聲學超載)會將隔膜扔向背板。兩者一旦接觸就容易因靜電吸附在一起,使麥克風在加電重啟之前無法工作,損壞脆弱的保護塗層。

電容式MEMS麥克風較低的可靠性是所用架構的直接結果。業內人士都非常瞭解這些問題,產品設計師也在積極尋找更好的替代方案。怎麼樣才能設計出一種沒有間隙的麥克風呢?

壓電式MEMS麥克風支援先進的波束成形

Vesper Technologies針對這個問題推出了全新的解決方案。在密西根大學(University of Michigan)所做的研究基礎上,該公司開發出VM1000——第一款商用的壓電式MEMS麥克風。

20170531NT01P10 圖10 Vesper壓電式MEMS麥克風的非等比例頂視圖(左)和橫截面圖(右)。

圖10顯示了VM1000的結構,其中的背板和隔膜被單層柔性板替代,聲壓的變化會使這些板子受壓和彎曲。由於這些柔性板是用三明治結構的壓力材料製造的,因此這種壓力會產生電荷,從而允許聲音的直接測量。這種麥克風不需要背板。

20170531NT01P11 圖11 壓電板受聲壓引起的應力變化。

由於省掉了背板,VM1000極大地改變了麥克風的可靠性。這種麥克風不再有窄且易受損的間隙讓顆粒或液體滲入,因此天生就具有防塵和防水功能,在高可靠性的陣列中使用時也無需任何技巧或變通方法。由於這種結構不可能發生黏合故障,因此由於加速、大聲(聲學超載)或機械衝擊引起的麥克風故障風險也低很多。

20170531NT01P12 圖12 壓電式MEMS麥克風(左)和電容式MEMS麥克風(右)的聲學超載性能比較。

在MEMS中使用壓電材料並不是新的概念:今天生產的每個麥克風都包含數10個壓電射頻(RF)濾波器,因此射頻濾波器行業價值可達數10億美元,其巨大的盈利能力推動業界開發出先進的加工工具來製造壓電MEMS。

這是Vesper用來大批量生產並上市銷售首批壓電式MEMS麥克風的基礎設備。這些可靠且可重複使用的製造工具使得我們能夠製造出具有優秀的靈敏度匹配和長時間穩定性能的麥克風——這兩種特性對麥克風陣列而言都是關鍵。

灰塵、水、油和聲學超載——MEMS麥克風破壞性測試

圖13顯示了用於比較麥克風防塵和防顆粒物性能的試驗裝置。在試驗箱內連續8小時吹細沙(直徑在75µm或以下)。麥克風安裝在試驗箱內,因此在整個測試過程中沙子會在每個麥克風中累積起來。我們通過測量麥克風在測試之前和之後的頻率回應來觀察灰塵效應。

20170531NT01P13 圖13 在IP5X灰塵測試之前(左)和之後(右)的安裝在測試板上的Vesper壓電式MEMS麥克風。

圖14顯示了這種灰塵測試的結果。電容式MEMS麥克風的隔膜和背板之間積累了大量灰塵,因此其靈敏度降低了90%。這種靈敏度的降低幅度在陣列中的麥克風之間是不均勻的,造成麥克風之間不再匹配,最終導致陣列失效。與此同時,壓電式MEMS麥克風則完全不受影響。

20170531NT01P14 圖14 透過聲學口觀察到的電容式MEMS麥克風灰塵測試影像和結果(上)、壓電式MEMS麥克風灰塵測試影像和結果(下)。

圖15顯示了測試麥克風防水性能的裝置。每個麥克風淹沒在密封水槽裡的肥皂水中,加壓到15米水深的壓力並持續24小時。與灰塵測試一樣,我們測量了淹水之前和之後的麥克風頻率回應。

20170531NT01P15 圖15 麥克風防水測試裝置(左)、在聲學口朝上的情況下測試麥克風(右)。

圖16顯示了防水測試結果。電容式MEMS麥克風受到嚴重影響,其靈敏度降低了55%。與灰塵測試一樣,這種性能劣化對陣列中的每個麥克風的影響程度是不均勻的,因此由於匹配不良最終導致陣列無法工作。壓電式MEMS麥克風則不受防水測試的影響——相當於IPX8等級,表明這種麥克風在連續浸水的條件下仍能正常工作。

20170531NT01P16 圖16 電容MEMS麥克風(左)和Vesper壓電式MEMS麥克風(右)的防水性能測試結果。

除了對麥克風可靠性做了標準測試外,我們還開發了一種方法來測試MEMS麥克風對食用油的耐受性能。圖17顯示了將玉米油直接沉積在多個麥克風表面的裝置。當我們加熱油箱時,油會蒸發並覆蓋每個麥克風的內部結構,這對在廚房中使用的麥克風來說這是一種真實場景,在這種場景中話音介面的免提優勢極具價值。

20170531NT01P17 圖17 在麥克風表面沉積廚房用油的裝置,用螺絲將蓋子(左)固定到油箱(右)上。

圖18顯示油測試結果和透過聲學口拍到的照片。

20170531NT01P18 圖18 電容性麥克風的油測試圖像和結果(上),壓電式MEMS麥克風的油測試影像和結果(下)。

壓電式MEMS麥克風還能承受特別大的聲音而不失效。圖19顯示了聲學超載測試結果,其分別測試了將麥克風置於很高聲壓電平之前和之後的麥克風性能。

20170531NT01P19 圖19 電容式MEMS麥克風的聲學超載測試結果(藍線)和Versper壓電式MEMS麥克風的聲學超載測試結果(橘線)。

在受過136dBSPL的聲壓電平之後,電容式MEMS麥克風無法恢復:由於黏合故障它停止了工作。相比之下壓電式MEMS麥克風在經受150dBSPL(比136dBSPL高出5倍)的聲壓電平後能夠恢復得很好很快,這個試驗表明,Vesper壓電麥克風不會由於大的聲音(比如關車門的聲音)而偶發故障。

這些結果展示單個壓電麥克風在各種惡劣環境條件下的耐用性。電壓MEMS麥克風能夠在導致電容式MEMS麥克風性能劣化或失效的環境條件下保持一致的性能。

耐用的麥克風造就耐用的陣列

麥克風陣列和語音介面可能連接、提示和保護我們。這些無疑是消費電子設備的前瞻技術,要求大量結實、穩定和匹配良好的麥克風,然而,這樣的麥克風還沒有得到廣泛普及。目前,儘管電容式MEMS麥克風有許多可靠性問題,但業內對它們還是有很大的依賴性。

電容式MEMS麥克風很容易因灰塵、水和機械衝擊而受損。當多個麥克風以陣列方式使用時,這些可靠性問題更加嚴重,陣列越大,故障率越高:很大的陣列幾乎無法使用。

雖然有些變通方法可以提高電容式MEMS麥克風的可靠性,但它們都有缺點,會使成本增加,性能下降,而且只能實現臨時性保護。更結實、更便宜、更好的解決方案是使用天生就具有優異環境適應性能的麥克風。

壓電式MEMS麥克風具有與生俱來的防塵、防水和防油性能。它們具有優秀的匹配性和穩定性,對黏合故障具有免疫能力,是建置大型可靠麥克風陣列的理想之選。使用壓電式MEMS麥克風時不需要增加額外的保護成本,在惡劣環境條件下它們可以保持長期的穩定性能。

壓電麥克風不只是現有技術的強有力替代品。它們難以置信的耐用性可以支援以前根本不存在的新應用。在一次防水和聲學超載的極端測試中,Vesper麥克風被懸掛在行駛的小船側邊並投入海水中。儘管面臨著海水的侵蝕和湍流的衝擊,但這些麥克風仍然能夠記錄附近鯨魚的聲音。

Vesper麥克風陣列還被用於射擊檢測系統,透過分析呼嘯而過的子彈聲音可以定位射擊者並保護士兵。與被它們替換下來的超貴軍用級麥克風一樣,Vesper麥克風不會因超聲波步槍聲音的衝擊波而受損,因此用它設計的槍擊檢測系統非常便宜,足以保護城市、員警和一般公眾場合的安全。

這類麥克風應用是以前無法想像、現在看來很自然的應用,隨著壓電式MEMS麥克風的逐步普及,這些應用完全可能成為主流應用。壓電式MEMS麥克風是將流行的語音交互功能導入尋常百姓家的主要推動力。

延伸閱讀:發揮設計創意從日常生活開始!