基於對日益升高恐怖攻擊的關注、對住家、辦公室、市區免於傳統威脅的保護、對降低店面、倉庫等場所被盜竊、破壞時的損失,智慧型視訊監控的熱度和需求持續升溫。由於將各個攝影機的畫面持續上傳以便監控並不實際,此處所謂的智慧,必須是攝影機本身即有的本地智慧。

對於安全監控產品,我們希望略過正常現象專注於異常動作,人工智慧(AI)在這些系統中的使用因此越來越多。根據市場研究公司ABI Research的預測,到2023年,市場預計將以13.6%的複合年成長率(CAGR),從2016年的220億美元快速增加到超過550億美元。

純視覺(vision-only)監控存在某些更基本的限制,首先是定點式攝影機很明顯只能有受限的視野(FOV)覆蓋,其次是只能檢測可視的異常線索。你只能聽見槍響,但不會看見槍聲,而在聽覺範圍內的聲音是不受方向限制的一種線索。

突破基於視覺的監控方案限制

顯而易見的解決方案是將影音和PTZ (平移-傾斜-縮放)控制與智慧型音訊檢測相結合。音訊應支援多個可藉波束成形檢測抵達方向的麥克風(這種麥克風已獲智慧型揚聲器普遍採用)。然後訓練一組AI平台來檢測槍聲、尖叫聲或玻璃破碎等異常噪音。多個麥克風組合覆蓋360度的範圍並分析聲源方向,可為攝影機提供指向。

這種方法的另一個好處是攝影機可以採用極低功耗的待機狀態,直到音訊將其喚醒進行檢測(比攝影機持續開機大幅減少耗電)及現場分析。影音結合的檢測在必須以電池供電的偏遠地區因此可能非常有效。

用音訊協助攝影機指向繼以視覺ML的優點不止於此。確認我們想要看的事務後,我們還希望結合所見所聞來下結論。看見兩個人在進行激烈的對話,無法決定他們是在爭辯昨晚的足球賽,或正在進行可能導致鬥毆的口角。你不僅要看他們的動作還要聽他們的說話。後者可能只需要從音量、語調和關鍵詞即可判斷無需動到口語處理。

AI作為解決方案的一部份:第一步

此一案例和其他情況下的目標無需保證檢測出異常,而是要過濾出可能的異常行為以便上傳進行查對及/或記錄。針對此類檢測的AI訓練自然必須以影音串流結合的測試案例為基礎。由於視訊型和音訊型AI都各自獲得大幅發展,這不構成巨大的進步,將兩者結合應該是很自然的下一步。

所有這些很明顯取決於智慧型攝影機是否能夠結合智慧型音訊。您對攝影機管理可能已經駕輕就熟,但對音訊則可能略遜一籌。一般的解決方案可以在設備周圍安裝多個(可能非常小)麥克風,用於波束成形和主動式雜訊管理軟硬體,再加上觸發語詞檢測的AI平台;您的應用如有需要,還可以加上聲紋辨識及語音指令檢測、甚至於異常事件檢測。這種產品市面已經有售,智慧型音訊與智慧型視訊相結合的普及只是時間早晚的問題。