AI給存儲帶來的挑戰

首先是AI帶來的數據規模挑戰。生成式AI模型的參數規模通常非常龐大,為了提高模型的實際表現,經常需要需要準備大量訓練數據。因此,存儲系統要處理的數據量會越來越多,需要存儲系統有足夠的擴展性。

與此同時,如今高性能GPU不僅價格昂貴而且供應有限,如果不能將大量數據及時快速地傳輸給GPU,則會浪費寶貴的GPU資源,這對存儲性能有了更高要求。當有了高性能的存儲后,訓練期間創建Ckeckpoint和從Ckeckpoint的速度也會大幅提高,也很有價值。

此外,AI還帶來的功耗和空間管理挑戰。來自Meta和斯坦福大學的研究表明,存儲組件可能占服務器總能耗的35%,而高密度存儲解決方案不僅能減少所需的服務器數量和機架空間,同時,還能直接減少了維持設備運行所需的能源以及散熱供電。

AI在邊緣場景中落地的挑戰。在去中心化的趨勢下,如果全把數據傳回數據中心處理則會帶來很高的成本,所以,數據的處理需要在更靠近數據源的復雜環境中進行,需要用盡可能少的空間和電力資源進行處理。

理論上來講,閃存因為有非常高的性能表現,更少的空間占用,較高的存儲密度和較低的功耗需求,在應對上述挑戰中有不小優勢。

在Solidigm看來,對于人工智能全流程場景,從數據攝取、數據準備、模型訓練、Checkpoint創建和恢復,以及推理場景,SSD相較于傳統的磁盤存儲都有明顯優勢,充分可以證明SSD對于AI的重要性。

Solidigm可以幫助企業構建具有大型數據集的AI存儲解決方案

過去幾年以來,Solidigm繼承自英特爾以來在企業級市場的積累,在市場上打造具有密度優勢的SSD產品。作為最早在市場上力推QLC SSD的廠商,Solidigm在去年發布了61.44TB超大容量的SSD——D5-P5336,將業內存儲密度提高到了新的水平。

Solidigm并非一味讓客戶接受QLC SSD,而是積極用CSAL讓QLC發揮容量、密度和成本優勢,配合高性能的SLC SSD作為寫入緩沖區,將寫入負載轉換為對QLC更友好的順序寫入,減少寫放大的同時,也優化了存儲性能,最后提供高密度、高容量和高性能的存儲。

值得注意的是,CSAL(云存儲加速層)是Solidigm與Intel等合作伙伴聯合開發的。最早是收費的產品方案,現在是開源的免費方案。據倪錦峰介紹,CSAL目前已經被成百上千家客戶所使用,甚至一些第三方SSD廠商也在使用這一方案。

如今,CSAL在AI場景也派上了用場。

Solidigm D7-5810是去年新發布的SLC固態盤,Solidigm D5-P5336是剛才提到的基于QLC的最高61.44TB的固態盤,兩者搭配構建的CSAL方案在順序寫和隨機讀上的性能非常有優勢,可以最大化XPU的利用率。

當然,用戶也可以選擇性能和成本比較平衡的方案,選擇采用TLC介質的D7-P5520或者D5-P5430,雖然在提高XPU利用率方面不如此前的方案,但在p99隨機讀延遲上的表現有明顯提升。

如果用戶最在意的是成本,則可以索性選擇單盤最大容量高達61.44TB的D5-P5336,5年TCO成本表現最佳,但在提高XPU利用率方面的表現會比較差。

Solidigm在企業級SSD市場有非常完備的布局,既有強調性能和耐久性的SLC固態盤,也有強調大容量高密度優勢的QLC固態盤,也有中間態的TLC,這使得用戶可以根據需求靈活選擇,構建適合大型數據集AI的存儲解決方案。

AI正在推動QLC閃存存儲普及

倪錦峰注意到,QLC在AI場景中的應用越來越多。過去幾年中,倪錦峰的團隊一直在打造用SSD替代磁盤的方案,但一直進展緩慢。這倒不是因為擔心QLC耐久性的問題,因為QLC固態盤的大容量可以彌補擦寫次數上的不足?,F在隨著AI技術浪潮的到來,QLC的方案備受青睞,很多用戶都在積極采用大容量QLC SSD,特別是在北美市場上。

相比之下,國內用戶目前主要的關注點還在于GPU上。一方面是因為一些人還沒意識到SSD的重要性。另一方面,因為實際的軟件和硬件環境缺少對于大容量SSD的支持,使得國內整體對于大容量存儲方案的采用相對落后。

之所以北美市場先知先覺地采用大容量QLC SSD,說到底還是應用需求在推動的。隨著如今GPU性能越來越高,單臺服務器的功耗上限迅速攀升,為了減少功耗壓力,很多用戶都會積極嘗試功耗更低的閃存方案。倪錦峰預計,中國用戶在未來一段時間也會逐漸意識到這一點。

從2023年年底到2024年年初,SSD漲價的趨勢已經越發明顯。業內專家表示,結合當前公開信息可以預測,在未來幾個季度,SSD還會繼續漲價,未來甚至會面臨供應不足的情況。隨著越來越多用戶意識到SSD在AI場景中的作用,這一情況可能更甚。

在國內市場,Solidigm也接觸到了一些因為AI場景而升級閃存存儲的案例,比如金山云用SSD加速金山云對象存儲的案例。

金山辦公在WPS辦公軟件中加入了一些AI功能,為了提高響應速度,金山云對對象存儲進行了升級。在Solidigm的幫助下,金山云對象存儲從原本的硬盤加Cache的方案升級為純QLC SSD的配置,升級后,將加載40TB原始數據集的時間從535分鐘(約9小時)縮短到了11分鐘。

隨著AI應用越來越多,企業會面臨數據存儲方面的挑戰,而這些挑戰大多都可以選擇用閃存方案來應對,也講推動QLC閃存的普及。

未經允許不得轉載:存儲在線-存儲專業媒體 » Solidigm倪錦峰:閃存如何幫助企業應對GenAI帶來的存儲挑戰?
分享到

zhupb

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走