人工智慧(AI)大熱,全球晶片開發商競相發佈自己的AI處理器智慧晶片。電子技術設計(EDN)中國版編輯比較了目前主流「AI處理器」的技術和市場發展,並用表格的形式列出了它們的製程、架構及應用。

20180118NT01P1

寒武紀Cambricon-1A:核心的核心

中國寒武紀科技(Cambricon Technologies)的Cambricon-1A是一款深度學習專用處理器晶片(NPU),其高性能硬體架構及軟體支援Caffe、Tensorflow、MXnet等主流AI開發平台。據稱這是國際上首個成功商用的深度學習處理器IP產品,可廣泛應用於電腦視覺、語音辨識、自然語言處理等智慧處理關鍵領域。

專注於AI產業發展的美國媒體CB Insights最新發佈全球AI 100榜單,寒武紀以其深度學習專用處理器入選,是中國唯一一家上榜的AI硬體創業公司。

20180118NT01P2

寒武紀目前有三條產品線:首先是智慧終端機處理器IP授權,智慧IP指令集可授權整合到手機、安防、穿戴式設備等終端晶片中,客戶包括國SoC廠商,現已開始投入市場。其次,在智慧雲端伺服器晶片領域,作為PCIE加速卡插在雲端伺服器上,客戶主要是中國的知名伺服器廠商。第三是家用智慧服務機器人晶片:從智慧玩具、智慧助手入手,使服務機器人獨立具備看聽說的能力。客戶是各類下游機器人廠商,產品的推出將比智慧雲端伺服器晶片更晚。

華為麒麟(Kirin)970:號稱全球首款AI處理器

華為聲稱麒麟970是全球第一款AI系統級晶片,該晶片選擇了異質運算架構大幅提升AI的運算能力,內建獨立的神經網路處理單元。據說這種專用硬體處理單元源自寒武紀NPU IP授權,專門用於機器學習和一般的AI應用程式。

20180118NT01P3

麒麟970採用台積電(TSMC)10奈米(nm)晶片組製程技術(耗電量減少20%、體積減少 40%),主要規格如下:8核心CPU(時脈最高達2.4GHz),新世代12核心GPU(Mali G72MP12)、麒麟NPU(1.92T FP16 OPS)、影像訊號處理器(Image DSP)(512bit SIMD)、雙攝影鏡頭ISP(具備臉部、動作偵測)、Hi-Fi Audio(32bit/384k)、UFS 2.1、安全引擎(inSE&TEE)、全球通用4.5G數據機(1.2Gbps@LTE Cat 18)、4K影像(HDR10)、LPDDR 4X、i7感應處理器。

華為宣佈將在美國上市的Huawei Mate 10 Pro會搭載麒麟970晶片,另外華為榮耀(Honor V10)也會採用。相較之下,高通(Qualcomm)驍龍(Snapdragon)845也把大部分焦點集中在AI,而普及率無疑會比麒麟970高,Snapdragon845支持眾多Android 旗艦智慧型手機,當中包括三星(Samsung)、Sony、LG 和小米的高階產品。

與華為麒麟970晶片不同的是,高通是在通用平台內做核心最佳化,它沒有獨立的神經網路引擎單元,而是更彈性的機器學習架構,分佈在CPU、GPU、DPS等每個單元上,從而可以針對不同移動終端彈性調用各個處理單元。

對於兩者方向的不同,高通認為整合更加有效。但華為認為,鑒於手機對能耗的要求,獨立NPU處理單元未來一定是手機處理器的必要之路,從現在看只有蘋果(Apple)和華為做了獨立的NPU。

最近從微博(Wechat)流出麒麟970與Snapdragon 845跑分對比,聲稱前者跑分比後者還要高出7%,但麒麟970、Snapdragon845的差異其實不大,且網路還只秀出幾個獨立測試結果,並非完整跑分的平均值,顯示差距甚至可能比表面看來還小。同樣地,就算處理器的跑分很高,實地運作的績效還是不一定,尤其在差距如此微小的情況下。話雖如此,外泄的跑分結果依舊暗示華為旗艦處理器的運算能力有可能很快會追上高通。

高通Snapdragon845:今年將在高階Android手機中廣泛應用

Snapdragon 845採用最新的八核Kryo 385定制架構,性能比Snapdragon 835的Kryo 280提升25%。Snapdragon 845採用三星第二代10nm製程,主頻最高為2.8GHz;其次Snapdragon 845整合的Adreno 630 GPU性能比Snapdragon 835的Adreno 540提升30%,功耗降低30%。另外,Snapdragon 845整合了第二代千兆級LTE Modem——X20數據機,比Snapdragon 835的X16速度提升20%,其整合的全新Hexagon 685 DSP與Spectra 280 ISP全面提升拍照功能。

20180118NT01P4

從Wechat發佈的Snapdragon 845和麒麟970參數規格對比看出,Snapdragon 845核心有巨大升級,採用全新高階大核心A75與A53組合,GPU升級為Adreno 630,為三星10nm LPE製程製程。而麒麟970繼續採用A73核心與A53核心,GPU型號未知,同樣採用10nm製程,由台積電代工。

三星Exynos 9810:蘋果A11的最強對手?

三星Exynos9810處理器採用其第三代自行研發M3架構,擁有4個2.9GHz的M3大核和4個1.9GHz的A55小核,依然是10nm FinFET製程。10nm也是目前蘋果A11、Snapdragon 845和麒麟970都在採用的製程。

20180118NT01P5

GPU方面,Exynos9810採用最新的Mali-G72,採用18顆核心(MP18),預計工作頻率在700MHz。Mali-G72是Arm去年發佈基於Bifrost架構的圖形處理器,在更小面積與更低功耗的基礎上,提供更強大的效能。採用Mali-G72的設備,整體圖形性能是前一代的1.4倍,晶片整體能效提升25%、晶片面積效能提升20%、機器學習效率提升17%。

在AI方面,支持人臉檢測的Bixby變得更加聰明。基於神經網路的深度學習,新的處理器能夠透過快速影像搜索和分類精確識別照片中的人或物,以進行快速影像搜索或分類,或者利用深度感測,在3D中掃描使用者的臉部以進行混合式人臉檢測。而利用硬體和軟體,混合式人臉檢測功能可以實現真實的人臉跟蹤檢測,從而在使用人臉進行設備解鎖時候更加安全。

Nvidia DRIVE Xavier:為自動駕駛提供強勁驅動力

在CES會展上搶盡風頭的Nvidia展示了DRIVE Xavier,這個AI晶片由一個特別定制的8核心CPU、一個全新的512核心Volta GPU、一個全新深度學習加速器、全新電腦視覺加速器,以及全新8K HDR視訊處理器而打造。DRIVE Xavier可以提供更高的處理能力,運行功率更低,每秒可運行30 萬億次運算,功耗卻僅為30瓦,能效比上一代架構高出15倍。

TensorCore、視訊識別和流處理、物體定位、路徑規劃等所有AI運算任務都能在上面飛快跑起來,據稱首批樣品2018年第一季就可以交付給客戶。Nvidia CEO黃仁勳表示,中國市場是全球最大市場,所有的系統在設計時都考慮到了當地語系化和中國客戶的需求,比如百度的每輛自動駕駛車輛都搭載了Drive Xavier。

20180118NT01P6

Intel Loihi:挑戰神經擬態運算難題

為了抵禦Nvidia在AI領域的強勢進攻,英特爾(Intel)先後收購了FPGA晶片商Altera、AI初創公司Nervana Systems,以及以色列自動駕駛晶片公司Mobileye等。Intel在CES上向各界展示了其自主學習神經擬態晶片「Loihi」,這是在收購以上技術公司並彙集眾多研究成果後推出的神經擬態晶片。

AI晶片可以分為兩類,一類為人工神經網路,而另一類為神經擬態運算。理論上來說,神經擬態運算效能更好,但晶片開發難度更大,Intel的Loihi採用神經擬態運算這條更難的道路可以看出它希望逆襲Nvidia的野心。

20180118NT01P7

Loihi採用架構到晶片建模、非同步設計流程,以及基於FPGA模擬的圓形演算法驗證,具有非常節能的特點,擁有128個核心+3個低功耗X86核心、可程式設計的學習規則等特點。

Intel介紹Loihi晶片擁有自主學習功能,並且可以利用資料來學習和推斷,隨著時間延長能變得更加智慧,可以應用於汽車和工業生產等領域。不過,雖然該晶片有這麼多優點,這一切還需要在現實中應用證明它是否具有這些能力,這恰恰是Intel相較Nvidia的弱點,因為當前在全球的神經網路訓練系統大多數都採用Nvidia的晶片,Intel需要加大力度推廣以在市場佔有率上趕上Nvidia。

瑞芯微RK3399Pro:首次採用CPU+GPU+NPU硬體結構設計

瑞芯微電子(Rockchip)在CES上發佈旗下首款性能超強的AI處理器RK3399Pro,為AI領域提供一站式Turnkey解決方案。其NPU運算性能高達2.4TOPs,具高性能、低功耗、開發易等優勢。

20180118NT01P8

RK3399Pro AI晶片採用big.LITTLE大小核CPU架構——雙核心Cortex-A72+四核心Cortex-A53,在整體性能、功耗方面具技術領先性。另外,該晶片還內建四核心Arm高階GPU Mali-T860,整合更多頻寬壓縮技術,整體性能優異。RK3399Pro具備極強的AI運算性能,是瑞芯微首次採用CPU+GPU+NPU硬體結構設計的AI晶片,其整合的NPU融合瑞芯微在機器視覺、語音處理、深度學習等領域的多年經驗。相較傳統晶片,典型深度神經網路Inception V3、ResNet34、VGG16等模型在RK3399Pro晶片上的運行效果表現出眾。

聯發科NeuroPilot:廣泛用於消費性產品

聯發科(MTK)在CES發佈了NeuroPilot AI平台,主攻智慧型手機、智慧家庭、自動駕駛車的終端邊緣運算。聯發科表示,目前1年約有15億台消費性電子產品採用聯發科晶片,2018年該公司將整合AI處理器與NeuroPilot SDK軟體發展套件技術,將AI帶入廣泛的消費性產品中。

20180118NT01P9

聯發科已在2018年新款Helio手機晶片中加入AI運算核心,現在已為智慧語音助理、智慧電視、自動駕駛車打造AI解決方案,並在CES中展示具體跨平台應用,包括Amazon Echo智慧語音助理、Android O智慧電視、BelkinWemo智慧型插座、以及聯發科全網覆蓋家庭路由器等。

中國華夏芯「北極星」:完全自主IP的AI晶片平台

華夏芯發佈全自主IP的AI晶片平台——「北極星」,這是中國首次發佈的CPU、DSP和AI全部具有自主IP的平台型AI晶片。北極星是一款針對多種應用的SoC晶片,不但有負責神經網路和深度學習的AI專用處理器,還整合高性能的CPU/DSP,其能力可以延伸到多個產品領域,諸如智慧輔助駕駛、智慧安防監控、機器人、電腦視覺、車載和商用雷達探測、語音辨識等嵌入式AI應用。此外,還能延伸到工業4.0、現場控制、邊緣運算、智慧硬體、智慧家居等在內的多個其他領域,是一款市場適應性極強的異質運算和AI平台型晶片。

北極星可以在單晶片上採用程式設計擴展的方法實現複雜度很高的現場控制與決策、數位訊號處理、影像訊號處理、基於神經網路的深度學習和特徵提取、多執行緒平行運算等多種功能。北極星晶片採用台積電28nm製程製程,將於2018年上半年量產。

中國地平線「征程」和「旭日」:嵌入式AI視覺晶片

2017年獲得Intel一億美元投資的中國地平線推出了征程(Journey)和旭日(Sunrise)兩款處理器,都屬於嵌入式AI視覺晶片,分別針對智慧駕駛和智慧攝影鏡頭。

20180118NT01P10

這兩款晶片性能可達到1Tops,即時處理1080P@30幀,每幀可同時對200個目標進行檢測、跟蹤、識別,典型功耗為1.5W。兩款晶片採用關注模型(Attention Engine)+認知模型(Cognition Engine)的資料處理流模式,透過這一個組合演算法,晶片的運算速度可以提升10倍以上。利用邊緣學習,模型可以不斷提升自己,錯誤率降低在50%以下。此外,兩款晶片利用彈性張量運算核,使地平線AI處理器的乘法器利用率接近100%。

征程1.0處理器具備同時對形容、機動車、非機動車、車道線、交通標誌、紅綠燈等多類目標進行精準即時檢測與識別的處理能力,可支援L2級別的輔助駕駛系統。旭日1.0系列處理器集合了深度學習演算法,支援在前段實現大規模人臉檢測跟蹤、視訊結構化,可應用於智慧城市、智慧商業等。