為何音訊情境感知是感測器融合關鍵

作者: Elia Shenberger,CEVA業務發展總監

情境感知裝置具有整合位置、喜好及裝置感測器數據等使用者相關資料的能力。就智慧型音訊裝置而言,這意味著發揮此一內容以了解個別語音指令,甚或無需任何語音提示下執行動作。應用情境感知於語音助理及其他裝置的理想方式是感測器融合,本文將說明感測器融合及情境感知是如何賦予智慧型語音應用更好的使用者體驗。

為改善下一代裝置的功能性,智慧型音訊裝置必須超越簡單的聆聽功能。使用者期望智慧型集線器和語音助理不但能理解簡單的語音命令,還能將語音指令,以及其他使用者和情境數據(可能是背景雜音或使用者正在聽的Spotify音樂)結合後,瞬間且準確地依照情境解釋且執行指令。

智慧型裝置必須具有情境感知,才能收集此種數據。

何為情境感知?

所謂情境感知是裝置本身能夠整合使用者相關的資料(例如位置、喜好及各種感測器數據),確切地了解使用者的指令。在此為基礎上加上已知的情境及使用者喜好資料,裝置可依照指令或提示以執行其功能。若沒有情境感知的智慧型語音裝置(例如助聽或語音助理),則難以準確地提供理想的使用者體驗。

隨時拾音,裝置結合了訊號處理技術與機器學習,可了解自然聲音、環境噪音和使用者語音等等聲音,亦即具有辨識「聲學場景」和「聲學事件」的能力。

場景可能是早午餐時段嘈雜的咖啡廳、安靜的圖書館或早上通勤期間的公車站。事件是在任何場景中都能聽到的特定聲音,如汽車喇叭、碗碟碰撞或孩童笑聲。機器聆聽還能對音樂和聲音進行分類,例如發話者的語言、性別或估計的年齡;所播放音樂的曲風或演唱的歌手。

有研究指出,具備情境感知為基礎之事件辨識功能的居家服務機器人,能有效和準確地提高獨居老人的生活監護應用。情境感知賦予裝置將某些聲學事件歸類為「警報」功能,亦即此一技術在保健領域具有真正的救生優勢。裝置一旦能夠辨識玻璃破碎聲或煙霧警報聲,就可以自動請求相關的緊急服務。

語音助理的情境感知功能

語音助理特別從情境感知中獲益匪淺。雖然Amazon的Alexa現在已於Guard功能中,採用情境感知以改善居家保全,但大多數其他語音助理產品並未將此納入。

大多數語音助理如缺乏情境感知功能,則其功能、使用者體驗,甚至安全性都將大打折扣。例如沒有情境感知的語音助理很難辨識警報等聲音且需要的反應。

Alexa Guard這類的功能的機制是從多個感測器和來源以收集情境資料,確認使用者在家或外出的時間,以及發送(玻璃破碎或煙霧警報)等智慧型警報的時機。當使用者說「我要出門」後,Alexa便以此為基礎以啟動警報監聽功能,然後運用內建的音訊分析功能以辨識煙霧警報、一氧化碳警報和玻璃破碎等各種聲音。

類似的音訊分析可以運用於各種應用程序中,以過濾誤報、縮短保全人員和急救人員的回應時間,並提高總體安全性。這項技術可以搭配現場工作人員和視訊監視系統,為智慧城市和教育設施提供更多的保護。

感測器融合作為一種情境感知解決方案

感測器融合或感測器處理是滿足智慧型音訊和語音助理情境感知需求的理想工具

來自多個感測器如麥克風和加速度計的數據可以融合為裝置進行機器聆聽、準確的音訊分類和聲學事件辨識所需的情境內容。

此一快速和及時有助於解釋個別感測器的錯誤或偏差,而無需考慮持續(且昂貴)校準的程序,便可結合使用者的個人資料及從語音指令獲得的音訊數據,以提供更好的情境內容,使語音助理作出更準確的回應。

雖然使用個人數據自會帶來明顯的安全風險,但感測器也可藉由對數據進行本地處理以提高安全性,以免將數據傳輸或儲存至易遭受攻擊的裝置。

除了運用情境感知以改善裝置功能、準確性和使用者體驗外,CEVA也致力利用這項技術於其他方面以提高獲利能力。例如,語音助理可以根據語音搜尋和使用者的先前購物行為以投放廣告;在企業環境使用時,還可以藉由個性化的使用者介面以提高團隊生產力和工作場所效率。

CEVA獨家的SenslinQ硬體和軟體融合平台,為融合動作感測器、聲音和連接技術,並賦予物聯網(IoT)裝置情境感知功能。該平台處理來自裝置內部多個感測器的數據(包括麥克風、雷達、慣性測量單元(IMU)、環境感測器和飛行時間(ToF)感測器),然後篩選產生的數據、執行前端訊號處理、應用進階演算法產生動作、語音和聲音偵測,以及存在和接近檢測等「情境觸發子」。

SenslinQ平台是許多情境感知裝置(包括智慧型手機、筆記型電腦、AR/VR頭戴式耳機、助聽裝置、穿戴裝置及語音助理)開發的關鍵。它將感測器處理的工作量集中化,然後融合裝置或遠端的情境觸發子,以協助裝置了解及適應周圍環境。

重點整理:為何感測器融合正是音訊情境感知所需

1.聲音/音訊應用的情境感知是改善下一代裝置功能的關鍵

·具備情境感知的裝置會整合使用者相關的數據(例如位置、喜好和各感測器數據)以了解使用者的要求,並在此為基礎上搭配已知的情境內容,以執行其功能;

·沒有情境感知的智慧型語音裝置(例如助聽或語音助理)將難以準確地提供理想的使用者體驗;

·在機器拾音方面,裝置結合了訊號處理技術與機器學習,可了解自然聲音、環境噪音、使用者語音和音樂錄音等聲音;

·裝置需要具備辨識「聲學場景」和「聲學事件」的能力;

a.場景可能是早午餐時段嘈雜的咖啡廳、安靜的圖書館或早上通勤期間的公車站;

b.事件是在任何場景中都能聽到的特定聲音,如汽車喇叭、碗碟碰撞或孩童笑聲;

c.機器聆聽還能對音樂和聲音進行分類,例如發話者的語言、性別或估計的年齡;所播放音樂的曲風或演唱的歌手;

·總而言之,這些可能都是無關痛癢的細微末節,但融合起來,這些聲學事件、場景和分類,都將有助於提供智慧型裝置及技術的情境感知;

a.沒有情境感知的裝置可能會混淆指令內容或執行錯誤的功能;

b.一項研究指出,具備以情境感知為基礎之事件辨識功能的居家服務機器人,能有效和準確地提高獨居老人的生活監護應用。

2.語音助理特別能從情境感知中獲益匪淺—目前此一功能尚未融入Google Assistant或Amazon Alexa

·大多數語音助理裝置能夠辨識「播放知名或主流音樂家的音樂」此類的一般性指令;

·但Snips發現Google Assistant即使在使用者習於聆賞某個較不知名樂手歌曲時,也不太能夠找出其姓名;

·裝置不具有聽從「播放某個較不知名樂手歌曲」指令所需的情境,將其與使用者經常播放曲目的資料進行比較,並找出正確的姓名,以準確地執行語音指令。

3.智慧型音訊和語音助理情境感知需求的答案,就在感測器融合

·混合來自多個源頭的感測器數據,為裝置提供機器聆聽、準確的音訊分類和聲學事件辨識所需的情境內容;

·感測器融合需有多個同類或不同類感測器或感測器,再用軟體處理及融合相關的數據;

·此一快速和及時有助於解釋個別感測器的錯誤或偏差,而無需考慮持續(且昂貴)校準的程序;

·感測器融合可結合使用者的個人資料及從語音指令獲得的音訊數據,以提供更好的情境內容,使語音��理作出更準確的回應;

·雖然使用個人數據自然會帶來明顯的安全風險,但感測器也可藉由對數據進行本地處理以提高安全性,以免將數據傳輸或儲存至易遭受攻擊的裝置。

發表評論