AI為伺服器機櫃功率帶來的影響

作者 : Marc Cram, Server Technology

人工智慧(AI)逐漸變得比雲端技術更普及。我們說AI無所不在,並不僅僅因為資料中心有AI應用,或者MIT Python程式師可進行AI程式設計,而是它已經進入我們的日常生活…

人工智慧(AI)逐漸變得比雲端技術更普及。我們說AI無所不在,並不僅僅因為資料中心有AI應用,或者MIT Python程式師可進行AI程式設計,而是它已經進入我們的日常生活,比如在超市里巡遊的導購機器人,安裝在機場裡採用卷積神經網路(CNN)的安防攝影機,放在壁爐罩上的亞馬遜Alexa語音助理,甚至我們牛仔褲口袋裡的蘋果(Apple)手機Siri虛擬助理(它可以向我們推薦10英哩內有哪些好的壽司店)。

AI程式設計能夠從經驗中或透過訓練進行學習,並能將學到的知識自主運用到未來的場景中,因而以極快的速度進入我們的生活中。換句話說,它可以像人一樣完成工作,同時還會自動適應不斷變化的環境。無論呈現AI的是超市里目光呆滯的機器人,還是領著我們去酒吧的澳大利亞性感女聲,其功能都是透過CPU或GPU系統(比如Nvidia的DGX)來實現。

AI應用的種類非常多,不能簡單地說哪種硬體就是最好的。正如英特爾副總裁兼AI產品事業部總經理Naveen Rao所說:「因為AI應用並非只有一種,客戶發現沒有所謂『最好』的硬體平台能夠適用於各種AI應用」。無論為AI應用選擇哪種硬體,有一點是明確的:每一台處理設備都需要供電。

資料遷移所費不貲

對IT經理來說,在計算伺服器所需的電力時必須考慮AI的影響。一個普通伺服器機架的平均功耗為7kW,而運作AI應用程式的機架功耗可能超過30kW。因為執行AI應用程式時處理器利用率更高,比如在GPU類伺服器上運作AI應用會使得每個晶片的功耗倍翻,因此必須提高功率以保證系統正常運作。

當然,如果設備功率不夠,可以嘗試遷移資料,但這可能比處理資料耗電多得多,因為資料移轉過程中一直都要耗電,簡單地說就是資料傳輸的成本很高。

例如,儘管有許多雲端供應商(AWS、Azure、Google等)可供選擇,但複雜的資料傳輸還隱含成本,許多公司都會遇到這一問題。因此一個可行的方案不是遷移資料,而是在靠近資料來源的位置進行處理,邊緣運算應運而生。

以少量網路資源解決大問題

邊緣運算可望成為另一種備受期待的5G資料技術的基礎。5G網路要達到1ms延遲的指標,需要許多分散式處理區域(也稱為邊緣網路)的支援。邊緣伺服器的位置應靠近產生4K甚至8K格式高畫質視訊的個體,以及智慧城市中監控行人和交通動態的攝影機等應用,這些場景下都不需要將資料發送到雲端。

此外,無人駕駛車也需要邊緣網路的支援。這些新型資料應用的關鍵是接近即時的AI資訊處理。

目前,所有的AI應用程式都運作在基於矽的運算硬體上——可以是智慧型手機內的定制晶片、邊緣運算伺服器內的FPGA、或是可透過公共雲訪問的專有AI系統(如Nvidia的DGX)。

這些硬體都需要供電,不管是直流電(如電池)還是交流電(來自電網),實體系統之間也需要透過銅線或光纖連接起來以進行資料通訊。

斷電是AI的剋星

AI似乎對人類具有前所未有的價值。然而,一旦斷電它就會崩潰,並停止工作,就像超人對氪石的反應一樣。要使AI避開掉電問題,減少系統崩潰的風險,最好的辦法就是確保持續可靠的供電。

對那些需要接近即時處理的AI應用來說,具有檢測每個插座電力(Per Outlet Power Sensing)功能的交換式配電單元(PDU)可以讓邊緣資料中心提供最大化的執行時間。在這種環境下,像交通訊號控制和消防站等城市緊急回應系統所需要的AI伺服器就必須選擇可靠的PDU,以確保救護車、消防車和執法部門的數位通訊系統暢通。

圖1 Server Technology的交換式PDU。

鑒於這些關鍵任務,智慧城市需要智慧電力設備來確保5G服務的暢通。利用可以遠端監控和管理的資料中心PDU,可監控機櫃的溫度和環境條件。

對於資料中心和主機託管設施,人們將用AI處理能力更強的GPU系統取代基於CPU的伺服器,在需要更大的C13和C19插座組合時,可擴展的機架式PDU就派上用場了,它支援30kW機架。

資訊的發展根植於進步的土壤

最開始只需要口頭收集資訊,詳細資訊有助於進行決策。直到1846年Royal Earl House發明了電報列印系統,資訊的收集才開始需要手搖柄來提供電力。從那時起,電力和資訊處理就不可分割了。

目前世界上處理能力最強的超級電腦是美國橡樹嶺國家實驗室(Oak Ridge National Lab)的Summit。它使用了近3萬個強大的GPU來執行深度學習演算法,達到每秒10億次的運算速度,以協助解決氣候變化問題。

我們正在邁入歷史的新紀元,AI將給我們的生活帶來翻天覆地的變化。但我們得先為AI提供電力,選擇可擴展的可靠電源對順利實現AI功能至關重要。

(參考原文:AI’s impact on rack power,by Marc Cram)

 

 

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論