GPU-CPU Superchip把CPU和GPU放到了一塊電路板上,上一次CPU和GPU走這么近的時候,還是集成顯卡“寄生”在CPU時候。

肉眼可見的是,右側應該是Hopper GPU芯片,周圍幾個看著像是顯存顆粒。左側應該是Grace CPU,周圍有很多像供電單元一樣的東西。

Grace CPU是英偉達的第一個數據中心CPU,擁有最多72個Arm Neoverse V2核心,支持最多512GB的LPDDR5X內存,每個CPU的內存帶寬可達546GB/s。

Hopper是英偉達第九代數據中心GPU,主要面向大規模AI和HPC應用,相較于上一代Ampere 有很多提升。

Grace和Hopper之間通過一個叫NVLink Chip-2-Chip(C2C)的互聯技術連在了一起,提供高達900 GB/s的總帶寬(單向是450GB/s),是x16的PCIe Gen5的7倍,可以為兩個芯片提供內存一致性、高帶寬和低延遲的通信。

英偉達在文檔里寫道,NVLink C2C所提供的內存一致性優勢,可以提高開發者的生產力,可以提高性能,可以提高GPU的可訪問的內存容量。

所謂提高生產力,是指在NVLink C2C的幫助下,CPU和GPU現在可以同時且透明地訪問對方的內存,這使得開發者可以專注于算法設計,而不用花時間做內存管理。

NVLink C2C所提供的內存一致性,允許開發者只傳輸他們需要的數據,而不需要把整個頁面數據遷移到GPU或從GPU遷出。

這里提供的內存一致性,還支持通過CPU和GPU的原子操作,來實現GPU和CPU線程之間的輕量級同步原語,方便開發者控制多個線程之間的協作和通信。

此外,配合地址轉換服務(ATS),NVLink C2C可以利用NVIDIA Hopper DMA引擎,來快速地在主機和設備之間傳輸大量的內存數據。

在NVLink C2C的幫助下,應用程序可訪問的內存不止GPU所提供的96GB,可用的還有來自Grace CPU的內存,每一個Grace Hopper Superchip可提供最多512GB的LPDDR5X的CPU內存。

加起來就是512+96=608GB!

另外,NVLink C2C還支持NVLink Switch System,這使得一塊Hopper GPU不僅可以訪問本地Grace CPU的內存,還能透過交換機訪問遠端的Hopper GPU以及遠端的Grace CPU的內存。

也就是說,每一個Hopper GPU都可以訪問集群里的所有內存。值得注意的是,NVLink Switch和NVLink C2C的帶寬一樣是900GB/s的,這為跨節點的內存訪問一致性提供了基礎。

由于NVLink可連接最多256張Grace Hopper Superchip,算下來,最多可以訪問150TB(256x608GB)的內存。

總之,NVLink C2C能讓應用程序能夠更容易地直接讀取、儲存數據,更方便地進行原子操作,有助于處理更大、更復雜的問題。

Grace Hopper Superchip屬于是一種異構加速平臺,適用于HPC和AI負載,它對技術領域的主要貢獻是:提供了迄今為止最簡單、最高效的異構編程模型,為解決復雜問題的人提供了便利。

上圖展示的是基于Grace Hopper Superchip的一個HGX Grace Hopper Superchip節點,單節點的TDP高達1000瓦,風冷散熱和水冷散熱都行。

這么一個東西要怎么用呢?大體上有兩種組織形式:

第一種是只用InfiniBand,配合英偉達的Bluefield-3 DPU,本質上還是傳統的RDMA加速網絡,這種適合橫向擴展的機器學習和高性能計算工作負載。

另一種,在用了InfiniBand的基礎上,還在顯卡那一頭用NVLink Switch System把顯卡連在了一起,這種連接256個Grace Hopper Superchip的完全體適合用來解決世界上規模最大,最具挑戰性的AI訓練和HPC工作負載。

上圖對比了CPU+顯卡傳統組合,Grace Hopper一體的組合以及配上了NVLink Switch的Grace Hopper三者之間的對比。

對比之下,CPU-GPU靠16通道的PCIe 5.0連接的速度與有了NVLink C2C的Grace Hopper相比實在是太慢了。

而GPU-GPU之間通過InfiniBand的傳輸速度跟基于NVLink 4的NVLink Switch相比,也差距甚遠。

上圖展示了Grace Hopper與x86處理器加GPU傳統組合的性能表現差異。

得益于NVlink C2C的加速作用,CPU到GPU的速度更快了,自然語言處理(NLP)場景的處理時間縮短了4倍。

得益于NVlink C2C和NVlink Switch的加速作用,CPU到GPU的速度更快了,使得DLRM推薦系統的處理時間有明顯縮短。

在圖神經網絡場景中,得益于NVlink C2C的加速作用,Grace Hopper的性能表現也很強。

這張圖顯示的是純x86處理器和有了GPU加速之后的對比情況,由于GPU-CPU之間的帶寬限制,GPU的提升很有限,而有了Grace處理器的加速和NVLink C2C的加速效果之后,性能提高了4.25倍。

看到這里,應該已經大致感受到Grace Hopper SuperChip的厲害的部分,由于筆者對這些專業軟件不太熟,也就不現學現賣介紹了。

本文旨在自己學習記錄和幫同樣想了解Grace Hopper SuperChip先睹為快,想了解更多細節的朋友可以直接看原文檔。

https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper

未經允許不得轉載:存儲在線-存儲專業媒體 » 快速認識英偉達的GPU-CPU超級芯片Grace Hopper
分享到

zhupb

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走