音訊邊緣處理器賦予具情境感知的音訊體驗

作者 : Raj Senguttuvan & Vikram Shrivastava

具有機器學習(machine learning;ML)功能的專用音訊邊緣處理器將提供越來越自然的通訊體驗...

過去十年來,尤其是在2020年,疫情造成越來越多的人必須居家工作,於是對於視訊通話和語音裝置的需求大幅增加。然而,我們對於視訊通話的使用並不僅限於Zoom會議。如今,我們廣泛地使用視訊通話進行教學、上健身課程、體驗現場音樂以及在會議上進行互動等等。這種虛擬參與經常透過筆記型電腦、智慧型手機、平板電腦、智慧家庭助理以及其他物聯網(IoT)裝置(例如Amazon Echo Show、Facebook Portal、Peloton、Tempo Studio等)實現。

為了確保順利無虞地參與音訊、視訊通話或家庭助理體驗,音質必須可在噪音和其他干擾因素的影響下依然保持一致。裝置如何智慧化地處理聲音,決定了使用者的溝通體驗是否順暢。

新技術提高音訊和語音的複雜度

「音訊智慧」(audio intelligence)——即產品製造商所謂的「智慧聲音」(smart sound),是一種裝置處理聲音的能力,它可以提供最佳的用戶體驗。隨著「語音先行」(voice-first)介面的裝置在通訊、娛樂和健康管理領域的使用量增加,人們對於更高性能的無縫、低障礙體驗要求也持續提升。

無論是用於專業會議還是個人娛樂,當今的使用者希望裝置不只是瞭解簡單的喚醒或關鍵字(例如Alexa),並追求以更卓越音質在裝置與應用之間跳轉的能力。為了實現身歴其境的無縫體驗,裝置還應該能夠將您的語音和/或語音命令與您的個人偏好和環境資料結合起來,以便根據您的特定情況對聲音進行處理。這就是所謂的「情境感知」(contextual awareness)。

何謂「情境感知」?

具有「情境感知」能力的裝置結合了使用者的特定資訊,例如位置、偏好和環境感測器資料,因此更加瞭解用戶的需求,也更能準確地對特定命令或觸發做出回應並執行功能。

「常時監聽」(always-listening)裝置採用結合了機器學習(machine learning;ML)的訊號處理技術,用於區別自然聲音、人聲、背景干擾等多種聲音類型。這些聲音通常被分為「場景」(scene)和「事件」(event)。「場景」是指用戶所處的環境,例如嘈雜的機場航廈或安靜的工作空間,而「事件」則包括有人在說話、玻璃破碎或狗吠等情況。為了實現最佳化體驗,無論是視訊通話還是語音命令,情境感知裝置都可以處理這些聲音組,以確保這些行動的意圖。Knowles context-aware audio system schematic

情境感知系統示意圖(圖片來源:Knowles Corp.

為什麼選擇專用的音訊邊緣處理器?

專用的音訊邊緣處理器搭載ML最佳化的核心和音訊傳真度,它是支援情境感知和高品質音訊通訊裝置的關鍵。這些處理器能夠提供足夠的運算能力,使用傳統演算法和ML演算法以及一小部份通用數位訊號處理(DSP)資源來處理音訊。

雖然雲端可能具有一些很棒的優點,但邊緣處理無需高頻寬網際網路連接,就可以讓使用者隨時利用裝置的全部功能。例如,邊緣音訊處理器針對帶有情境資料的音訊進行低延遲處理,同時將情境資料安全地保存在本地端,從而賦予使用者卓越的虛擬通訊體驗。

音訊邊緣處理器有什麼特色?

為了提供卓越的音訊和語音命令體驗,音訊邊緣處理器必須具備多種處理功能。

  • 噪音和距離

「波束成形」(Beamforming)使用訊號處理演算法,能以特定方向聚焦或引導聲音,從而提高音質與抑制雜訊,使日常場景中的對話成為可能。聽聲裝置用於確定語音的方向和噪音來源。ML分類技術則用於確定哪些波束中含有語音或雜訊。

接著,DSP針對僅包含語音內容的波束進行下一步的語音使用者介面(UI)處理。例如,在會議系統中,裝置必須能夠辨識聲音的方向,而且必須始終以360度追蹤多位發言者。噪音來源也可以被歸類為音訊事件偵測,如玻璃破碎、火警等,從而進一步應用在音訊感知的智慧家庭系統。

「鄰近性」(proximity)偵測對於動態的聽說體驗也是必不可少的。裝置透過偵測使用者與麥克風的鄰近程度,以調整麥克風的增益。此功能可為簡報、健身和學習環境提供高效的視訊功能。這些功能是先進視訊會議裝置設計核心,例如亞馬遜(Amazon)新推出的Echo Show,配備的螢幕會隨著使用者移動而旋轉,從而讓螢幕始終面向使用者。

  • 延遲

人們在交談之前,通常可以容忍通話中最多200毫秒(ms)的端到端延遲。因此,邊緣處理器中的低延遲處理是確保高品質語音通訊的關鍵。

  • 功耗

音訊邊緣處理器的設計採用專有的架構、硬體加速器和特殊的指令集,從而能夠最佳化地執行音訊和ML演算法。這些最佳化有助於降低音訊密集的用例(例如視訊會議)中的功耗。

  • 整合

音訊邊緣處理器公開其架構和開發環境,並為應用程式開發人員提供可用於開發新裝置和應用的工具與服務支援,從而加速了創新。未來的音訊裝置將會是協同努力的成果。

  • 安全性

邊緣處理盡可能地減少對於雲端連接的需求,而且還有其他更多好處,包括提高資料的安全性。例如,大多數消費者都很介意個人智慧家庭裝置的資料被持續地傳送到雲端進行處理。過去幾年來,發生了幾起來自主要裝置製造商的重大違規行為,證明了消費者的這些顧慮是正確的。

在本地的裝置上處理個人資料以進行分析或推論,才能讓人安心。一個很好的例子:智慧家庭安全裝置經過訓練可以聽懂特定的事件聲音(例如玻璃破碎),並以此來提醒房子主人。聲音和警報的處理都發生在邊緣處理器,而不需要持續地連接到雲端,從而增強了系統的安全性。

結論

專用的音訊邊緣處理器將定義下一代音訊和支援語音的裝置,創造更多情境感知、沉浸式和無縫的音訊通訊體驗。它們能夠高效地處理低功耗和低延遲的語音通訊、降噪、情境感知和感測器輸入端的加速ML推論,從而為人機介面開啟新用戶體驗的更多可能性。

本文作者:
Raj Senguttuvan,策略行銷總監;Vikram Shrivastava,IoT資深行銷總監;Knowles Corp.

(參考原文:Audio edge processors deliver context-aware audio experiences,by Raj Senguttuvan & Vikram Shrivastava)

本文同步刊登於EDN Taiwan 2021年8月號雜誌

加入LINE@,最新消息一手掌握!

發表評論