一文看懂特斯拉Dojo的獨門秘笈

作者 : 胡安,EDN China

特斯拉近日亮相其D1客製化晶片,用於訓練資料中心內部的AI網路。D1號稱擁有500億個電晶體,採用7nm製程技術製造,推測是由三星代工...

現在,特斯拉(Tesla)不僅是汽車公司、人工智慧(AI)業者,還是一家晶片供應商。在AI訓練晶片界,用於訓練AI模型的晶片業者,除了英特爾(Intel)、輝達(Nvidia)和Graphcore,現在還有特斯拉。

特斯拉近日亮相其D1客製化晶片,用於訓練資料中心內部的AI網路。D1號稱擁有500億個電晶體,超越AMD擁有395.4億個電晶體的EPYC Rome,略少於Nvidia GA100 Ampere SoC的540億個電晶體記錄。

D1晶片面積約645mm²,每mm²整合高達7,750萬個電晶體的有效電晶體密度,僅次於蘋果(Apple)的M1行動晶片,功率密度高於Nvidia A100 GPU。D1採用7nm製程製造,推測是由三星(Samsung)或台積電(TSMC)代工;考慮到三星也為特斯拉製造HW3晶片,所以由其代工D1的可能性更大一些。

每25個D1晶片共同組成一個Training Tile,每12個Training Tile共組一個伺服器機櫃,共108PFlops;幾個機櫃搭配再組成Dojo超級電腦。

每個伺服器機櫃容納超過100,000個功能單元、400,000個客製核心和132GB SRAM

Dojo的「江湖地位」

特斯拉曾經採用Nvidia GPU打造超級電腦而登上Top10榜單。而從最新的Top10排名看起來,Dojo並不是運算能力最強的超級電腦,但這正是Dojo的設計目的——僅針對一項非常具體的任務,即基於大量360度視訊訓練神經網路。所有程式碼都是專門為在此硬體上理想運作而編寫的。

相形之下,其他超級電腦的建構都考慮到靈活性,以便能夠適應大量不同的任務。當然,如果真的要在視訊訓練上一決高下,即使是最強大的Fugaku (富岳)超級電腦,也很可能比Dojo慢些。

更何況巨大的Fugaku由256個機櫃組成,而Dojo僅由10個機櫃組成,因此在尺寸方面來看也是最小的超級電腦。如果特斯拉再為Dojo增加54個機櫃,就能超過Fugaku。

RAM也沒共享快取

智慧型手機和特斯拉的HW3都是除了SoC之外也採用RAM晶片。但是,D1訓練晶片宣稱沒採用RAM,那用的是啥?

事實上,D1內部有一個更快的隨機記憶體層,稱為快取。當 SoC/CPU調用DRAM時,響應時間約為 60奈秒(ns);而L3快取或晶片上 SRAM 的響應時間可能低至10ns。

英特爾目前最大的L3快取是57MB,IBM的最大快取記錄是120MB,AMD最強大的處理器有256MB的L3快取,而特斯拉在 2019 年宣佈的 HW3晶片則有 64MB SRAM。

特斯拉的訓練節點中帶有1.25MB SRAM,354個節點組成的運算陣列,也就是這個SoC算下來就是424.8MB快取,已超越所有處理器——這可能已經不是L3快取等級,而是更快的 L2了。

Tesla Dojo超級電腦訓練晶片節點架構

通常SoC經由接腳把訊號發送到主板上進行傳輸,但特斯拉並沒有把SoC從晶圓上切割出來,而是將所有SoC連接起來。

PCI-e Gen 4 連接介面的最新SSD理論限制為64GB/s,特斯拉的每個連接器能達到900GB/s的速度,推測是自行客製其連接方式。

Dojo液體冷卻Training Tile

每個D1晶片的功耗僅400W,25個晶片組成的Training Tile多晶片模組(MCM)功耗為15KW。Training Tile採用液體冷卻方法,據說用了10公斤液體,但特斯拉沒說是水冷。

Tesla Dojo液體冷卻Training Tile

在其Training Tile中,有SoC的一側與一般處理器一樣暴露在外,可以直接冷卻,但另一側被穩壓器蓋住了,如圖所示。

穩壓器直接蓋在處理器有啥好處?一般來說,處理器的電源通常安裝在處理器旁邊的主板上,電流必須先經過主板、插座、接腳和SoC,而Dojo Training Tile的電源可以直接傳輸到SoC,減少了耗散的熱量。

最後,看起來特斯拉已然掌握著摩爾定律(Moore’s Law)的衣缽。正如特斯拉執行長馬斯克(Elon Musk)所說的,“We should have Dojo operational next year”。明年值得期待!

本文原刊登於EDN China網站;並同步刊登於EDN Taiwan 2021年9月號雜誌

活動簡介

人工智慧(AI)無所不在。這一波AI浪潮正重塑並徹底改變科技產業甚至整個世界的未來。如何有效利用AI協助設計與開發?如何透過AI從設計、製造到生產創造增強的體驗?如何以AI作為轉型與變革的力量?打造綠色永續未來?AI面對的風險和影響又是什麼?

AI⁺ 技術論壇聚焦人工智慧/機器學習(AI/ML)技術,涵蓋從雲端到邊緣、從硬體到軟體、從演算法到架構的AI/ML技術相關基礎設施之設計、應用與部署,協助您全面掌握AI最新技術趨勢與創新,接軌AI生態系佈局,讓機器學習更快速、更經濟、更聰明也更有效率。

贊助廠商

加入LINE@,最新消息一手掌握!

發表評論