語音助理、待過濾垃圾郵件及電影與產品推薦引擎等現代人工智慧(AI)服務越來越複雜,與一年前的神經網路相比需要高出10倍的運算。目前以CPU為主的技術無法提供現代人工智慧服務所需要的即時回應能力,導致不佳的使用者經驗。

Tesla P4及P40特別針對推論設計,使用經訓練的深度神經網路識別語音、影像及文字以回應使用者和裝置要求。Pascal架構GPU具備以8位元(INT8)運算為主的專門推論指令,提供比CPU快45倍的反應速度,與不到一年前推出的GPU解決方案相比則提升了4倍。

Tesla P4為資料中心帶來最高的能源效率,其小尺寸及最小50瓦特的低功率設計可安裝於任何伺服器內,讓生產作業負載推論的能源效率達CPU的40倍。在進行視訊推論作業負載時,單一伺服器裡安裝單顆Tesla P4 即可取代13台僅採用CPU的伺服器;而包含伺服器及用電量的總持有成本則能節省達8倍。

Tesla P40為深度學習作業負載帶來最大的處理量。一台搭載8顆Tesla P40 加速器的伺服器擁有每秒47兆次運算(TOPS)的推論效能及INT8指令,可取代140台以上的CPU伺服器的效能(5)。若以每台CPU伺服器約5,000美元計算,可節省65萬美元以上的伺服器採購成本。

另外與Tesla P4 及 P40推出的包含兩項加速人工智慧推論的創新軟體:NVIDIA TensorRT及NVIDIA DeepStream SDK。

TensorRT為針對優化生產部署所設計的深度學習模型函式庫,具有立即回應極度複雜網路的能力。透過訓練過的32位元或16位元定義神經網路以及設定以降低精度的INT8運算為目的進行優化,將深度學習應用的處理量及效率極大化。

NVIDIA DeepStream SDK銜接強大的Pascal伺服器,與雙CPU只能處理7個串流(6)的運算能力相比,能即時同步解碼並分析高達93個HD視訊串流。這解決人工智慧的其中一項重大挑戰:處理大規模的影音內容分析以應用到如自駕車、互動式機器人、過濾及廣告投放等領域。深度學習整合至視訊應用中讓企業能提供前所未有、智慧且創新的視訊服務。