類比運算重新定義Edge AI效能新境界

作者 : David Kuo,Mythic產品行銷與業務開發資深總監

類比處理在理論上雖然比起數位處理的效能更好,但在發展上一直受到較大尺寸的困擾,最終限制其速度和可擴展性。如今,透過重新定義類比處理並搭配嵌入式快閃記憶體的組合,不僅有助於提升類比性能,並兼具快閃記憶體的速度和運算密度。

類比處理在理論上雖然比起數位處理的效能更好,但在發展上一直受到較大尺寸的困擾,最終限制其速度和可擴展性。如今,透過重新定義類比處理並搭配嵌入式快閃記憶體的組合,不僅有助於提升類比性能,並兼具快閃記憶體的速度和運算密度。

自1960年代以來,「類比運算」(analog computing)在商業應用中的佈署微乎其微,只有應用在軍事與利基工業的使用案例。雖然數位運算的發展已主導商業應用數十年,但近來在類比運算的一些新進展顯示這一趨勢正開始轉變。

隨著邊緣人工智慧(Edge AI)應用的運算要求呈指數型成長,數位系統正苦苦掙扎於跟上其腳步。傳統的數位運算擴充方式——即轉向更先進的半導體製程節點,顯然已經達到物理極限;而隨著「摩爾定律」(Moore’s Law)逐漸走向盡頭,不斷攀升的製造成本也開始將該技術限制在少數幾家口袋夠深的業者。下一代的人工智慧處理亟需新的方法。事實證明,相較於數位系統,類比運算在成本與功率方面具有更高10倍的優勢,而且這一差距只會繼續擴大。

在深入比較類比系統與數位系統在人工智慧時代的可行性之前,讓我們看看人工智慧硬體的兩項關鍵因素:可擴充性(scalability)與可用性(accessibility)。人工智慧演算法的權重(weight)資料計算會有很大的不同;影像辨識等電腦視覺任務可能會有5M至100M的權重資料,而自然語言處理的權重資料為500M至100B。

隨著人工智慧演算法變得更加複雜,這些數字將持續增加,因此,人工智慧硬體對不同的應用具有可擴充性是非常重要的。當你想到可用性時,人工智慧硬體能夠即時處理資訊更是至關重要。畢竟延遲問題會限制用戶體驗,阻礙生產力,而且還可能會對於某些應用帶來嚴重的安全風險。

為了滿足Edge AI需求可能面臨的幾項挑戰。(來源:Mythic)

現代數位系統是以馮紐曼(Von Neumann)架構為基礎,這是在1945年提出的運算概念。該架構規定用於存取與儲存個別數位運算邏輯單元與記憶體單元的資料。這在數位系統中讓CPU或GPU運算邏輯得以存取外部記憶體,一般是指DRAM。處理大型人工智慧演算法暴露出馮紐曼架構的一個重要缺點——即在邊緣裝置的即時人工智慧處理過程中存取儲存在外部DRAM中的權重資料以進行邏輯處理。

這個缺點造成三個系統層面的問題。首先,存取外部記憶體會增加延遲,使記憶體頻寬成為系統性能的瓶頸。其次,存取外部記憶體會消耗大量的電力。而且,隨著系統性能要求的提高,電能消耗只會不斷增加。第三,為了適應更高性能的CPU與GPU,更快與更多的DRAM,以及主動式冷卻系統以散去功耗所產生的熱能,物料清單(BOM)成本將會增加。

目前,一種展現巨大前景的特殊途徑是類比式「記憶體內運算」(compute in-memory;CIM),它將類比運算搭配快閃記憶體(flash)等非揮發性記憶體(NVM)使用。類比CIM系統可以利用快閃記憶體優越的密度進行資料儲存與運算。這意味著類比CIM處理器可以執行多個大型、複雜的深度神經網路(deep neural network;DNN),因而免於對DRAM晶片的需求。這種方法完全消除了數位邏輯與外部記憶體的瓶頸、功耗以及與人工智慧處理馮紐曼系統有關的BOM成本。

記憶體內運算(CIM)搭配類比運算與記憶體,有助於提升處理速度與記憶體容量。(來源:Mythic)

為什麼是NVM

讓我們仔細了解NVM的優勢。NVM具有優越的密度與零功率保存功能,這表示儲存在每個單元中的權重資料在沒有電源的情況下仍可保存。類比CIM方法能讓NVM單元在NVM單元內儲存並執行算數運算,其工作原理是以快速與省電的方式將整個記憶體組的較小電流組合起來。透過NVM記憶體的應用,能立即完成運算。類比CIM系統不需要透過電能來存取外部記憶體中的權重資料,因而能減少能源的使用。

在類比CIM系統中,快閃記憶體電晶體作為可變電阻,依照儲存在記憶體中的類比值比例而降低傳輸到輸出端的訊號強度。然後,此效應觸發DNN的乘法運算功能。在加總運算過程中,透過整列記憶體單元的輸出,對每個運算的輸出進行加總。這種方法讓類比CIM系統能夠在一個步驟中處理整個輸入電壓,而不像數位處理器那樣被迫以高速方式進行反覆運算。

類比CIM的主要優點

在DRAM中保存大型權重資料陣列的典型數位邊緣推論功能,可能耗用每次10pJ的乘積累加運算(MAC)能量,而類比CIM途徑則可使其降低至0.5pJ。當你考慮到基於視覺的人工智慧推論處理需要高達數兆次MAC運算時,就能感受到節能省電迅速增加。為何數位系統會消耗如此多電能?有兩個原因。第一,乘法的運算過程。數位系統需要採用大量的並聯的邏輯閘來執行高速傳輸量,而且隨著資料解析度增加,邏輯閘數量會繼續大幅成長。其次,隨著解析度與視訊畫面更新率增加,存取儲存在外部DRAM中的權重資料需要大量的電能。

類比運算可望實現更高能效。(來源:Mythic)

此外,由於NVM快閃記憶體的高密度特性,可以使用單一快閃記電晶體作為儲存介質與運算裝置,加上一個加法器(累加器)電路,可以實現一個極為精巧的系統。這也表示可以節省外部DRAM及其相關元件的成本。

類比CIM系統也具有成本優勢,因為它可以在成熟的半導體製程節點中製造。另一個額外的好處是,尖端技術節點的供應鏈可用性往往有限,而更成熟的製程節點的可用性更廣泛,成本效益更高。

另一個好處是,類比CIM系統提供非常低的延遲特性。在NVM快閃記憶體單元內儲存與處理表示即時運算的結果。資料在處理器中經由數位邏輯閘與記憶體傳輸與存取外部DRAM時,也不至於發生延遲問題。相反地,還可以在晶片上即時進行大量平行矩陣運算。

類比CIM系統是視訊分析應用的理想方式,包括物件偵測、分類、位置預測、分割與深度評估。這些系統的高影格率與取樣速率需要高度運算工作量。雖然數位系統能支援即時人工智慧處理的基本要求,但這些系統十分龐大,而且非常耗電。雖然有主動冷卻的方法,但對於許多非常精密的邊緣裝置來說並不可行。

許多數位系統使用的另一個變通方式是將深度學習工作卸載至遠端的雲端伺服器上,因為這些數位系統無法滿足Edge AI應用的能源與尺寸要求。問題是將推論任務推向雲端往往是不切實際的。高頻寬通訊並非總是可行的(想想無人機就知道了),因此,將推論任務移至雲端將會導致明顯的延遲問題,而使得這一選項對於即時應用來說並不可行。

類比系統對環境條件變化的容忍度也有了大幅的進展。在過去,環境雜訊會稍微改變處理結果。數位處理中的類比與數位緩衝電路方面已經完成大量的研究與開發,將有助於補償現實世界應用中的環境雜訊。

相較於數位系統,儘管類比CIM系統大幅簡化了MAC處理,但還需要額外的數位元件來執行一個受過完整訓練的神經網路。例如,最好能在數位邏輯中執行啟動與共用等功能。

Mythic為此採用單指令多數據串流(SIMD)加速器單元、協調運算的RISC-V處理器、路由資料流量的網路級晶片(NoC)與保存資料的本地SRAM,以補強其類比CIM核心,讓人工智慧推論處理器能夠獨立執行一個完整的DNN模型。這種類型的系統是可擴充的,因為它將每個類比CIM核心、SIMD引擎與SRAM視為處理器中的獨立區塊。經由將一個處理器中的區塊或一個板上的多個處理器連接,該系統可以確保輸入、輸出與中間資料單元更有效地傳送。

類比CIM架構將每個核心、SIMD引擎與SRAM視為獨立區塊,連接至可擴展的多個區塊,確保更有效率地傳輸。(來源:Mythic)

類比CIM的主要市場

由於類比CIM系統具有優越的性能、功率與成本優勢,我們將看到類比CIM與各種Edge AI應用結合,包括視訊安全、工業機器視覺與自動化,以及自動機器人與無人機。

對於視訊監控市場,Edge AI應用對於保護人們的安全以及協助預防損失非常有用。例如,安全監控攝影機使用人工智慧演算法來即時偵測入店行竊事件,或者機場檢測可疑物品是否被遺忘。帶有類比CIM的Edge AI應用不僅能即時處理資訊,而且還能保護人們的隱私。相較於需要將整個視訊串流傳送到中央處理系統的傳統系統,類比CIM系統可以在邊緣處理資訊,因此,只需要將安全事件的中繼資料發送到指揮中心。這有助於緩解安全監控的隱私問題,同時還能保護大眾安全。

在工業領域,可用於品質控制與安全的電腦視覺應用需求日益增加。類比CIM系統可用於生產線上,以協助即時辨識不良與其他生產的問題。在未來,我們也會越來越常看到由人工智慧驅動的機器人與人類一起工作,運輸貨物並執行重複性與費力的工作。為了確保工人的安全,機器人必須在邊緣即時處理資訊—這是類比CIM系統的完美應用案例。

最後,無人機也是類比CIM系統的另一個關鍵市場。過去幾年來,雖然圍繞著無人機有許多的市場炒作,但主流運算方法並不能滿足無人機獨特的性能與功率要求。由於數位系統非常耗電,這限制了無人機的飛行時間。此外,數位系統很難執行複雜的人工智慧網路。透過類比CIM解決方案與數位系統搭配使用,無人機可以處理多個大型複雜的DNN,而且所需的功率僅為傳統系統的一小部份。

為了充份發揮人工智慧產業的潛力,需要在目前的數位途徑上推動100-1000倍的改善。由於數位系統的進展步伐已經放緩,類比CIM系統提供了唯一的前進道路,以滿足人工智慧應用的功率、性能、成本與尺寸需求。未來,我們將會看到類比技術的更多進步,包括在NAND快閃記憶體與電阻式記憶體(Resistive Random Access Memory; RRAM)中實現的類比運算,此外,還將整合3D記憶體技術與先進的晶片製程。預計在接下來的幾年,我們將會看到類比運算推動人工智慧創新的新時代。

(參考原文:Rediscovering analog computing for achieving effective edge AI performance,by David Kuo)

本文同步刊登於EDN Taiwan 20232月號雜誌

活動簡介

人工智慧(AI)無所不在。這一波AI浪潮正重塑並徹底改變科技產業甚至整個世界的未來。如何有效利用AI協助設計與開發?如何透過AI從設計、製造到生產創造增強的體驗?如何以AI作為轉型與變革的力量?打造綠色永續未來?AI面對的風險和影響又是什麼?

AI⁺ 技術論壇聚焦人工智慧/機器學習(AI/ML)技術,涵蓋從雲端到邊緣、從硬體到軟體、從演算法到架構的AI/ML技術相關基礎設施之設計、應用與部署,協助您全面掌握AI最新技術趨勢與創新,接軌AI生態系佈局,讓機器學習更快速、更經濟、更聰明也更有效率。

贊助廠商

加入LINE@,最新消息一手掌握!

發表評論