以硬體協議感知系統實現AI HBM測試

作者 : Teradyne Taiwan

在進行HBM測試時,傳統半導體測試採用ATE透過實際的pattern文件寫入/讀取數位資料,而基於硬體的協議感知(Protocol-Aware)則可源於沒有模式(pattern-free)文件的低速協議...

人工智慧(AI)晶片主要應用於人臉辨識系統和邏輯判斷處理系統,更多應用於線上的虛擬服務。在這些情況下,人工智慧需要大量的資料運算來滿足系統的需求。在運算過程中,晶片還需要高速或高頻寬的記憶體來完成工作。

「高頻寬記憶體」(High Bandwidth Memory;HBM)讓AI晶片在極短的時間內快速讀取大量的儲存資料。在HBM測試中,IEEE1500是SOC和DRAM之間的標準通訊介面,I2C和JTAG作為ATE和SoC之間的通訊介面,在傳統的半導體測試中,自動測試設備(ATE)需要透過實際的pattern文件來寫入/讀取數位資料,而UltraFlex協議感知(Protocol-Aware)可以來自那些沒有模式文件的低速協議。

為了讀取整個DRAM狀態,需要多次寫入/讀取IEEE1500命令,這意味著需要多次執行I2C或JTAG。我們注意到在模式執行中會浪費大量的測試時間,基於硬體的協議感知可以透過內部FPGA寫入/讀取數位訊號,以減少測試時間並提供更高的效率。

簡介

在使用ATE測試HBM時,我們知道HBM是由IEEE1500協議控制的,而每個IEEE1500命令都是由I2C或JTAG命令創建的,這意味著需要創建很多pattern來測試HBM。此外,還需要花費大量時間來產生這些pattern。透過使用協議感知可以減少pattern產生的時間和除錯過程。

高頻寬記憶體(HBM)的應用

傳統上被封裝為獨立的晶片通常需要一塊系統板,以承載這些記憶體晶片和控制晶片,如上圖所示。例如顯卡,每塊顯卡都有GPU和DRAM,DRAM通常圍繞著控制晶片。為了增加記憶體大小,工程師會在系統板上放置更多的DRAM die,而這代表需要更多的空間。

HBM可以將所有記憶體晶片和SoC晶片堆疊到一個封裝中,無需任何系統板。

首先討論封裝類型,一般傳統的打線接合(wire bond)透過線連接每個晶片。晶片體積更大,訊號速度更低。在這種情況下,HBM晶片尺寸將變得非常大或密度將受到晶片尺寸的限制。

覆裝晶片技術將提供小體積和高速功能。

這是HBM的側視圖。一個HBM晶片包括SoC、中介層、底層晶片(base die)和DRAM,在此以一個HBM中的四個DRAM為例。每個DRAM晶片透過矽穿孔(Through Silicon Via;TSV)連接以堆疊在一起,如此即可在一個封裝中封裝更多的DRAM die。

封裝的問題解決了,接下來面對的就是在相同封裝尺寸內有更多的DRAM,那麼測試就會需要大量的I/O,但過多的I/O會導致晶片尺寸過於龐大,因此讓內部DRAM共用I/O,並且採用高速的通訊介面,透過設備發送JTAG命令,我們知道有些客戶使用FPGA解決方案來測試HBM。

IEEE Std 1500是一種可擴展的標準架構,用於實現嵌入式核心和相關電路的測試和整合。它放棄了類比電路,專注於促進SoC數位方面的有效測試。

ATE解決方案協議感知

在傳統的半導體測試中,工程師需要創建包含所有輸入訊號並期望設備輸出資料的測試模式,有時這些模式由設計人員創建,有時則使用標準通訊協議與設備通訊。在HBM結構中,ATE不能直接讀取記憶體單元,而是必須透過低速介面控制SoC來擷取每個單元的狀態。大多數工程師將使用標準的pattern架構。之後只要每次修改不同的位址和資料,就可以重複不同的命令或讀取不同位置的資料。但是每次修改位址和資料都會需要一些時間,所以透過ATE採用新的解決方案來減少這個執行時間。

從易用性的角度來看,協議感知要求用戶輸入波形。通常在pattern中需要輸入的是0/1訊號。前者更接近晶片設計者的習慣,更容易與晶片設計者溝通。

其好處如下:
- 系統級測試(任務模式)
- 無模式(pattern-less)編程環境(易用性)
- 非確定性(Non-Determinism)
- 待測物(DUT)驅動的時序
- 重用模擬和基準測試工作
- 預定義協議和用戶定義協議(nWire PA)

上面顯示的方塊圖是一個I/O電路的例子,每塊板上有8個FPGA,每個FPGA處理64個I/O通道。FPGA具備支援多幅影像的能力。

執行時間

接下來,我們來看看這兩種方法在處理速度上的差異。以JTAG為例,使用這兩種方法將相同的資料寫入相同的地址,寫入資料的次數逐漸增加。

固定pattern可以提供最佳性能,但很難修改數據。動態模式可以提供靈活的功能但需要更多的執行時間,協議感知可以提供足夠的靈活性和相對較短的執行時間。

DSP處理

在擷取數位訊號源之後,下一步是運算。測試系統的電腦使用獨立的匯流排控制測試儀,還提供了從測試儀到每台DSP電腦的獨立電纜,電纜頻寬為10Gig,每台DSP電腦使用獨立的電纜與頻寬為1Gig的測試儀電腦通訊。

每個DSP PC可以包含一個或兩個處理器(實體CPU晶片),每個處理器包含多個處理器(或CPU)核心。每個處理器最多可以同時執行16個處理(也稱為邏輯核心)以進行DSP處理。透過這種結構,ATE可以實現多晶片平行測試,縮短測試時間。

本文作者:

Eric Lin,Teradyne Taiwan應用工程師
Pierce Cheng,Teradyne Taiwan應用工程師
CI Kuo,Teradyne Taiwan應用工程經理

加入LINE@,最新消息一手掌握!

發表評論