看好深度學習加速器市場預計將達到250億美元的龐大商機,資料中心正積極為多款晶片展開實驗室測試,預計將在明年部署其中的一些晶片,並可能針對不同的工作負載挑選多款加速器。

目前為止,包括Graphcore、Habana、ThinCI和Wave Computing等50家供應商的AI晶片都在其客戶實驗室中進行測試。在日前於美國加州舉行的人工智慧硬體高峰會(AI Hardware Summit)上,來自這兩大陣營——晶片供應商及其資料中心客戶的代表們均表達了各自的立場。

微軟(Microsoft) Azure部門的傑出晶片工程師Marc Tremblay指出,一個逐漸明朗的問題是「沒有所謂的通用編譯器——這些晶片架構各不相同」。Marc Tremblay的部門負責管理超過1百萬台的伺服器。

微軟勾勒資料中心AI晶片版圖

該資料中心巨擘正在開發稱為Lotus的自家執行環境,可將人工智慧(AI)圖形映射至硬體語言。Facebook上週也推出一款通用的深度學習編譯器Glow,以支援其生態夥伴策略。

資料中心渴望能在AI性能方面實現重大飛躍進展,超越被譽為當今「訓練加速器之王」(the king of training accelerators)的輝達(Nvidia)運算架構Volta。Tremblay在發表專題演說時提到,「有些訓練任務在GPU上執行需要22天的時間,甚至還有超過2個月時間的,但我們希望儘快就會有答案。」

語音辨識應用程式(App)大約使用4,800萬個參數。研究人員正致力於研究神經網路;這些神經網路使用非對稱連接產生自己的模型,進一步將運算需求提升到新的層次。

Tremblay說:「我們需要10-50倍的頻寬,才足以支援更多深奧的神經網路出現。」。

針對16晶片的系統,當今的GPU價格高達40萬美元且功耗相當高,即使是交換器晶片也需要散熱片。他說,在晶片叢集上進行線性擴展「有時需要進行一些工程師不想做的任務。」

目前,微軟採用V100和上一代GPU,並密切「關注」Nvidia上週發佈的T4晶片。Tremblay指出,它看起來可望用於同時執行多個神經網路。

此外,微軟以及其他資料中心巨擘都在其x86 CPU上執行多種深度學習任務。「對我們來說,它通常是免費的,因為x86晶片並非一直在執行中。」他指出,軟體最佳化——例如英特爾(Intel) Cascade Lake中的新AI指令,將有助於推動多年的進展。

未來,資料中心可能會採用多個加速器,讓每個加速器分別映射到最適合的特定工作負載。Tremblay簡介了各種不同的語音、視覺、語言、搜尋和其他AI App,每一個App都各自具有延遲和吞吐量要求。

MS_landscape_x_800 微軟傑出晶片工程師Marc Tremblay介紹AI晶片發展現況(來源:Microsoft)

有些App使用多達20種類型的神經網路,使得跨不同神經網路模型的靈活性成為必備要求。範圍甚至包括對延遲敏感的Bing搜尋採用單個批次處理,而為其他App採用超過100個批次處理。因此,Tremblay為其測試的晶片分配了一個穩定的數字作為其靈活性的衡量標準。

他說:「新創公司先忽略安全和虛擬化等問題。他們並不需要從一開始就準備齊全,但最終我們都必須著手以成熟的CPU和GPU實現各種功能。」

...繼續閱讀請連結EE Times Taiwan網站