2023閃存峰會主論壇上,綠算技術首席科學家、烽煙研究院院長孟坤分享了Diskless存算分離架構的發展以及其如何助力加速AI模型訓練。

綠算技術的產品主要特性是支持Diskless存算分離架構的解決方案。事實上,我們身處各種信息技術加持的時代,給我們帶來了便利的同時,也面臨用戶更高的需求,因此,做產品務必圍繞應用需求展開。當前信息應用已進入AI時代、數據驅動時代,如何助力其發展是產品人應擔負的時代責任。

那么避不開的是實現數據驅動計算,從應用需求角度來看,好的技術務必能夠幫助用戶解決問題。當前,數據驅動智能已經轉化為“計算”,依賴于數據、模型算法及計算基礎設施;其中,計算基礎設施包括運算資源(算)、存儲資源(存)、通信資源(運),三者需要相輔相成,相互協同才能更好地完成計算任務,存儲在整個計算環境中的作用不容忽視。

針對現在大規模AI應用的發展,對存儲的要求在全面提升,不論是空間上、性能上,還是使用模式上都存在著巨大挑戰。一方面,大規模數據需要大容量存儲空間,并行(集群)運算需要高效的數據存取和交互,重點體現在吞吐率、IO等服務能力上;另一方面,多樣化的計算任務要求所有資源都應具備靈活的伸縮能力,具有靈活的可擴展性。在高速網絡支撐下,Diskless存算分離架構具備了滿足上述需求的潛質,亟需支撐這些創新架構的技術和實施方法。

Diskless存算分離架構是什么?

Diskless就是存算分離架構,在高速網絡加持下,實現運算模塊和存儲模塊的解耦。在討論Diskless之前,有必要要談一下Serverless(去服務器),事實上就是云計算。它解決了用戶對計算資源所有權和使用權的解耦,用戶不用擔心設備購置負擔,可以通過按需購買服務的方式獲取所需計算資源,實現了“計算資源數據化”,便利了資源共享使用。

但是,云計算發展到現在,瓶頸也日益凸顯,主要體現為“服務質量難以滿足和服務器CPU利用率不足”同時存在的現象,說明了利用服務器集群提供計算資源池的模式存在的管理和數據交互頻繁問題難以克服,亟需新的計算架構。Diskless架構旨在實現存算分離,進而實現各種計算資源的完美協同和靈活擴展,滿足用戶對性能及其它服務質量提升的要求。而從傳統基于服務器集群到現在存算分離架構的發展需求中,極速設備成為保證質量的關鍵。綠算技術基于芯片級卸載RDMA/NVMe-oF的高速協議技術研發了網絡化極速存儲設備,提供了高性能、高擴展、網絡共享的數據存儲系統,并在AI訓練加速上做了一些實踐驗證。

在實踐方案中,綠算技術提供高速數據存儲系統,聯合運算模塊合作伙伴——GPU廠商思騰合力,重點針對高?;蚩蒲性核谧龃竽P陀柧殘鼍?,搭建了微型存算分離架構超算平臺。為科研實驗室,提供了一種開箱即用的AI訓練平臺解決方案平臺,較好地適應了用戶在設備空間,能源及運維能力相對受限的場景。

整體來看,方案直接簡單,上面是應用層,通過虛擬化技術方便用于定制所需計算資源,中間是運算資源池,并通過高速網絡與下層的存儲資源池互聯互通。為滿足用戶差異化需求,存儲資源層又被分為兩層:存儲系統服務層和存儲空間資源池,存儲資源池集中式共享使用的模式進行服務。

在上述方案中,應用了綠算技術的兩個核心產品,分別體現在軟件系統和硬件設備上。硬件是GP超100Gb的新型存儲服務器(EBOF),可以完全釋放數據存取能力,核心優勢包含五個方面:(1)實現網絡高速通道的線速匹配,(2)高速存儲協議包的芯片級卸載,(3)適當冗余設計保障可靠性,(4)簡約模塊化實現降低功耗,(5)可視化配置監管提升使用體驗。

硬件設備通過采用上述技術,設備實測參數達到了2U設備可以提供到72GB/s的帶寬,單機的IOPS達到了1600萬,時延和功耗也體現了不俗性能。更重要地,GP設備是可以網絡擴展的,如果更高需求,可以簡單地通過網絡設備直接橫向擴展。此外,設備采用標準接口和協議,并提供多樣化的應用模式,滿足用戶需求。

另一方面,綠算技術適應GP設備基礎上還開發并行文件系統LinePillar FS,滿足了運算模塊對數據存儲的多樣化需求。主要優勢體現為大流分級,小流的聚合方式保障性能;采用標準接口適配多種應用系統,此外,多個版本兼容了主流操作系統、處理芯片,能夠滿足用戶各種場景或現有IT資產利舊。

綠算分享兩個典型案例

基于上述Diskless超算平臺,綠算技術也開展兩個應用場景測試,一個是大家常見的AI模型訓練場景,這個場景是一個期貨公司做回測服務,他們的數據量不大,但交互非常多。訓練過程數據非常多,要求高頻讀寫,對IOPS有很高要求。之前他們采用服務器集群的方式進行模型訓練,跑十年的期貨數據、兩百多個模型,往常出份報告需要大概跑一個月;采用上述解決方案后,出報告時間直接降到了八個小時,后來又在數據系統上做了一個調整,模型訓練時間壓縮到三個小時。之后我們進行了分析總結,發現訓練時長的壓縮主要得益于數據交互模式的簡化和路程的降低。

第二個場景是AI驅動安全的一個場景,該場景需求是實現100Gb帶寬網絡流量的實時異常檢測。該任務的難點主要體現在兩個方面:(1)需要把流量完整存下來,(2)流量數據能夠高效的供訓練模型存取。經歷了高端服務器集群無法完成場景需求的情況下,采用Diskless超算平臺后,問題得到了很好的解決,實現了100Gb網絡流量的線速分析,滿足了大規模數據瞬間寫入和PB級海量數據秒級查詢需求。 事實上,分析發現,成功實踐還主要得益于通過建立集中式高速數據共享資源池,減少了數據在服務器之間的橫向流動,使得各個運算節點的性能得以充分發揮。

最后

孟坤總結了Diskless架構產品解決方案優勢,并強調使用全閃存儲方案后,能耗、空間依賴、存儲密度等都具有明顯優勢。展望未來,Diskless存算分離架構方案在云數據中心的基礎設施改造中具有巨大優勢,不僅體現在“碳達峰、碳中和”綠色數據中心建設方面,還體現在高性能、高性價比服務能力方面。

未經允許不得轉載:存儲在線-存儲專業媒體 » 綠算孟坤:擁抱Diskless計算架構,加速AI模型訓練
分享到

崔歡歡

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走