當前,以大模型為基礎特征的AI 2.0時代已經到來,“大模型+大算力+大數據”成為新一代人工智能發展的基本范式。然而,智能計算較通用計算的投入成本、技術門檻更高,廣大用戶需要一個新的計算開發和管理平臺,能夠集成算力管理與調度,數據治理與模型優化、訓練精調和推理應用開發等多層次的能力,為使用者提供更簡單、更高效、更穩定的算力體驗。

聯想萬全異構智算平臺應運而生,其差異化價值在于能夠以創新技術突破計算效率瓶頸。對于用戶而言,異構智算平臺能夠幫助用戶提高應用部署速度,降低業務TCO(全周期使用成本)。在基礎設施層面,它能夠提升算力利用率和可用性。

據介紹,聯想萬全異構智算平臺是一個能高度自動化完成AI全流程開發的平臺,可輸出高可用算力并不斷突破計算效率瓶頸的利器。用戶可自動完成AI計算并發布模型或發布推理服務。此外,平臺也為專業的AI開發用戶留有手動深入調整計算過程的空間,包括工具和模型的選擇,算力配置的調整,對任務的定制化監控等。

此外,聯想萬全異構智算平臺集成了算力匹配魔方、GPU內核態虛擬化、聯想集合通信算法庫、AI高效斷點續訓技術、AI與HPC集群超級調度器,這五大創新技術,這五大技術從不同方面幫助用戶解決問題。

算力匹配魔方:為用戶跳過繁雜的算力選擇和驗證。

基于海量的硬件評測和AI算子算法集成工作,聯想構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關系。針對不同場景,可以全自動規劃和調度最佳算法和集群配置,用戶只需輸入場景和數據,即可自動加載最優算法和調度最佳集群配置。

GPU內核態虛擬化:挖掘處理器潛力,讓vGPU利用率從80%提升到95%。

在AI推理和中小訓練中,子任務通常以虛擬GPU進行承載,業界目前普遍在操作系統層以用戶態對GPU做虛擬化,而用戶態虛擬化因不能對GPU做深層控制,會造成虛擬算力不穩定,調度開銷大等問題,從而造成近20%的算力損耗。

為此,聯想研究院開發了在GPU驅動層的內核態虛擬化算法。該算法具備三大革新:一是對算力和顯存精準隔離的算法能以<3%的誤差精準控制容器資源。二是在GPU驅動層做資源調度,去掉在驅動之上不必要的操作。三是在GPU驅動層將虛擬GPU的顆粒度精細到1%。新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。

聯想集合通信算法庫:突破集群計算瓶頸,使訓練效率提升10%—15%。

在大規模的AI集群中,性能釋放的最大瓶頸受制于網絡通信慢。網絡通信慢會導致GPU空閑等待,計算效率降低。針對大規模集群網絡通信瓶頸的挑戰,聯想萬全異構智算平臺能自動感知集群網絡拓撲,并選擇和采用經聯想增強的集合通信算法使數據傳輸在最佳路徑。以千卡規模集群為例,采用集成了聯想集合通信庫的聯想萬全異構智算平臺做管理調度,可使網絡通信效率提升超10%,并且集群規模越大,效果越顯著。

AI高效斷點續訓技術:實現分鐘級AI斷點續訓,讓AI集群持續可用。

據統計,目前千卡集群每月至少有15次的故障斷點。在常規的斷點續訓手段下,每次恢復訓練需要幾個小時,產生的額外費用超過百萬元。聯想萬全異構智算平臺針對故障特征來對數據做多級備份,大幅精簡了備份數據量,同時令備份數據從最佳路徑被提取。同時,對大量的AI訓練故障進行了特征采樣,基于AI故障特征庫,開發了預測AI訓練故障的AI模型,實現“用AI來預測AI”。此外,聯想萬全異構智算平臺集成了從服務器BMC,存儲管理,網絡OS的硬件監控,到調度器故障監控,再到對AI訓練收斂程度的監控,對AI故障的抓取能夠做到萬無一失。

由此三大革新,聯想能將斷點續訓恢復時間縮減到分鐘級,大幅提升了訓練效率。以千卡集群為例,聯想每月可節約上百萬元算力費用支出,讓寶貴的AI算力持續可用。

AI與HPC集群超級調度器:破局算力孤島,1小時內自動完成跨集群資源調度和共享。

對于有些同時擁有AI和HPC算力的用戶,希望能在不同集群間,根據任務優先級和資源狀況,充分共享利用GPU節點。然而,由于AI和HPC集群的調度方式完全不同,用戶在不同集群間共享資源時,既要通曉兩種調度方法,又要付出大量操作,導致無法實現資源共享。

聯想AI與HPC超級調度器架構的精髓之處就是做出能指揮雙類型調度的最精簡架構,在AI的K8S調度和HPC的Slurm調度之上,能夠切換AI和HPC的調度溝通,能全局監控任務和動態共享資源,使得用戶可以充分利用基礎設施的每一分算力。

聯想集團副總裁、中國基礎設施業務群總經理陳振寬

聯想集團副總裁、中國基礎設施業務群總經理陳振寬表示,“聯想萬全異構智算平臺”是AI 2.0時代聯想中國基礎設施戰略框架的核心。未來聯想將挑戰超過萬卡規模集群的通信算法優化,挑戰秒級的斷點續訓,深入研究相變式液冷技術,布局模塊化液冷數據中心,助力聯想AI算力朝著更強大、更穩定、更高效和更綠色的方向實現高質量發展。

未經允許不得轉載:存儲在線-存儲專業媒體 » 聯想萬全異構智算平臺發布:集成五大技術創新,突破計算效率瓶頸
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走