神秘AI晶片新秀Groq小露身手

作者: Sally Ward-Foxton,EE Times歐洲特派記者

AI加速器新創公司Groq擁有70名員工,迄今已募集了6,700萬美元資金,並已完成了第二輪募資。EE Times拜訪了這家開始從隱身模式浮出水面的神秘公司,透過與領導團隊的訪談瞭解到了更多關於該公司的資訊。

美國AI加速器新創公司Groq在2019年以「客戶問題」為理由,「高調」缺席了掛名贊助商的年度AI Hardware Summit大會,引來不少耳語;對此該公司共同創辦人Jonathan Ross的解釋是:「我們的策略是客戶優先,非常注重客戶需求。」

EE Times詢問為何Groq不派一個代表出席該場會議、現身解釋一下公司狀況,也許就能避免一場公關危機,Ross堅信他們做了正確的決定;「我們的原則是,做出來,不要只是說。我們當時的確準備在AI Hardware Summit進行展示,但後來決定把資源優先放在對客戶的支援上;而結果還不錯,客戶相當滿意。」

20200224_Groq_NT01P2

Groq共同創辦人Jonathan Ross。
(圖片來源:Groq)

Ross先前曾任職於Google的張量處理器(TPU)開發團隊,而Groq許多高層都曾是Google的資深員工。這家AI加速器新創公司擁有70名員工,迄今已募集了6,700萬美元資金,並已完成了第二輪募資。EE Times拜訪了這家開始從隱身模式浮出水面的神秘公司,透過與領導團隊的訪談瞭解到了更多關於該公司的資訊。

軟體定義的硬體

Groq罕見的軟體優先(software-first)方法,是先構建一個原型編譯器而非硬體原型;硬體架構是圍繞著編譯器打造,由此產生的TSP有一個簡化的硬體設計,但所有的執行計劃都在軟體中進行。軟體實質上協調了所有資料流和時序,從而確保運算不會停頓,而且延遲和性能都是可預測的。

「我們將大量的控制權交給了編譯器,這樣就能夠在軟-硬體介面上進行一些權衡…從而提供確定性執行(deterministic execution);」Groq首席架構師Dennis Abts解釋。Abts曾在Google資料中心任職12年,還曾於超級電腦業者Cray (EETT編按:已被HPE收購)擔任硬體架構師十幾年;他解釋,編譯器既能控制程式執行也能控制功耗狀況,因此在編譯時可以準確預測到精確、可重複的執行時間,以及每個模型運作的功耗。

「我們認為這使我們的方案在易用性方面更具優勢;」Abts表示,在編譯時能得知執行時間和功耗情況意味著「你可以在確知將達到的性能是如何的狀況下,從模型開發的角度進行快速試驗並進行佈署。編譯器可以完全控制晶片,無論是動態或靜態地;他表示:「不需要什麼動態分析(profiling)程式碼,因為靜態與動態是一樣的,這樣可以實現一些非常好的特性。」

20200224_Groq_NT01P1

Groq採用軟體定義硬體的方法來提供確定性運作和可預測的延遲。
(圖片來源:Groq)

在這些特性中,最重要的是消除了大多數架構在運算與傳輸其結果之間所需的同步化(synchronisation)步驟;免除了同步化的工作負擔,意味著可以大規模佈署模型而不會產生尾延遲(tail latency)。Abts指出,尾延遲是目前資料中心的一大難題。Groq的晶片可以在編譯時預先知道所有延遲。

「我們還避免了在前端導入很多複雜的硬體,如推測執行(speculative execution)、分支預測(branch prediction),很多複雜的控制結構可以簡單被排除;」Abts解釋,「有很多原因導致我們採取這樣的措施,尤其是因為激進的推測技術很可能被當成攻擊武器,導致如Spectre或Meltdown等CPU硬體安全漏洞。」

TSP不是FPGA

將軟體定義的硬體與確定性運作相結合的概念可能會讓人想到FPGA,但Ross強調,TSP絕對不是FPGA。另一家美國矽谷新創公司SambaNova最近也提出了「軟體定義硬體」概念,其細節還未完整公開(SambaNova仍處於隱身模式),僅表示他們正在開發可重新配置的資料流架構,並致力於開發用於可編程加速器的語言。

Groq的方法和SambaNova的概念之間是否存在重疊?針對EE Times提出的疑惑,Ross表示:「這是一個全新的概念,想像FPGA可以在每個週期重新配置,我們的晶片運作方式就類似是這樣,但它不是FPGA,沒有查找表(lookup tables)…你可以在每一個週期完全更改晶片功能,甚至可以確切知道晶片的每一個部分在任何時刻的運作情況,你的控制可以達到非常精細的程度,但它不是FPGA,與其他公司正在做的東西不一樣。」

不過市場研究機構Tirias首席分析師Kevin Krewell表示:「 Groq的方法的確實與常規FPGA以及SambaNova的方法非常相似;」他對於Groq到目前為止所分享的資訊提出了一些疑慮:「TSP的設計看起來非常精細,但我對每平方mm的運算效率仍有疑慮,可能存在許多挑戰。例如該設計是靜態編譯的,這意味著一次只能處理一種類型的機器學習演算法,而根據工作負載的不同,有些任務需要不同的機器學習模型,例如推薦、影像處理和語音處理。Groq並沒有透露該晶片針對一個不同的演算法需要花多少時間重新配置。」

…繼續閱讀請連結EET Taiwan網站

發表評論