阿里云彈性高性能計算平臺E-HPC產品榮獲會議創新大獎

此次獲獎的彈性高性能計算平臺E-HPC,就是阿里云基于自研飛天系統和神龍架構,將HPC與云計算有效相結合并借助遍布全球的多樣性計算、存儲和網絡等資源,以高性能、高彈性與低成本的算力,為企業HPC業務在云上高效、穩定運行提供支持和服務,助力其業務創新加速。

阿里云彈性高性能計算平臺E-HPC,讓高性能計算不再高不可攀

HPC業務場景對性能有著極高的要求。為確保高性能計算業務在云上高效、穩定、安全的運行,阿里云推出了高性能神龍服務器、高性能網絡和高性能數據存儲,它們一道組成了阿里云彈性高性能計算平臺E-HPC的核心基礎設施。

在計算方面,阿里云通過全球率先發布的革命性的CIPU處理器,對存儲和網絡實現低延的池化與虛擬化,讓100%的算力支持企業多元的計算場景需求。

CIPU的性能表現搶眼:僅單個實例就可以提供高達300萬IOPS的存儲能力、低至30us的延時,以及5000萬PPS的網絡轉發能力和低至16us延時,高彈性和企業級安全的能力支撐百萬級服務器高性能、穩定運行,顛覆了傳統IT時代的計算架構,帶來了一場計算架構的革新。

在網絡方面,與傳統的RDMA(Remote Direct Memory Access)

組網最多上千臺服務器相比,基于阿里云自研的eRDMA,可輕松構建一個超大型RDMA分布式計算網絡,網絡延遲從16us降低到5us,傳輸效率提升70%以上。

數據表明,eRDMA可以提升Redis數據庫混合讀寫80%的吞吐量,增強大規模分布式NLP和視覺計算30%的訓練性能,Spark場景中的分布式大數據實現30%的計算性能提升。針對諸如新一代天氣模擬系統WRF(Weather Research and Forecasting)等HPC應用場景,eRDMA較傳統方式提升38%的性能。

存儲系統性能是衡量HPC方案中底層基礎設施重要的指標之一。阿里云新一代高性能并行存儲CPFS(Cloud Parallel File Storage)系統,提供了線上和線下HPC解決方案中的核心數據平臺服務。除了支持RDMA高性能網絡、提供POSIX兼容的接口,CPFS還提供了通用的NFS接口,與E-HPC以及無影計算生態無縫對接,實現整個生產鏈條下的數據共享。

CPFS具備高達每秒鐘數百GB的吞吐能力,以及每秒鐘數百萬次IOPS的讀寫能力;在安全方面,CPFS支持WORM、訪問審計等數據安全能力,滿足敏感數據存儲需求。

在服務觸達方面,阿里云布局在全球28個地區和85個云計算可用區所提供的算力服務。此外,阿里云還通過開箱即用的云盒(CloudBox)、專屬Region、本地Region等新的產品形態以全方位產品矩陣將公共云的計算、存儲、網絡等基礎設施以軟硬一體方式延伸部署企業本地的數據中心,滿足用戶對數據安全、數據本地處理、低延時等業務需求的全托管云服務。

所有這些產品和服務,借助彈性計算云這個載體,成為阿里云的一個基礎服務,為企業的云上應用提供了更好的選擇。

讓科學與工程計算人員聚焦計算,擺脫來自IT環境的束縛

阿里云彈性計算架構E-HPC覆蓋了底層集群的生命周期管理、業務層面的調度器管理與作業管理、應用層面的軟件環境、應用性能管理以及最上層的業務使用接口;支持一鍵式創建云上的超算集群,按照HPC計算的要求編排云上的計算、存儲和網絡資源,并部署好相關計算軟件棧,讓企業可以直接開始計算工作。

針對企業最為關注的應用性能,阿里云除了提供各種匹配不同計算場景的實例規則組織外,還在E-HPC服務中加入了完整的英特爾oneAPI能力與相應的技術支持能力,為企業提供優化的編譯、調試的工具鏈、性能數據采集與分析工具,完整的云上HPC應用開發的平臺,方便有性能優化思路和需求的企業直接在云上開展HPC應用的驗證,應用性能剖析以及優化的工作。

阿里云智能彈性計算&無影產品線負責人、阿里巴巴集團研究員張獻濤博士出席第18屆CCF HPC China年會并發表主題演講

看得出來,E-HPC平臺化解了企業在業務上云過程中因為對云環境缺乏了解而難以著手的窘境,以符合企業的使用要求和使用習慣的方式,讓科學與工程計算人員將更多的精力聚焦在計算的本身,而不是放在對IT環境的適應上。

豐富的行業實踐,讓高性能計算普惠更多應用需求

基于性價比、數據安全、部署方便、應用簡捷等多方面的優勢,阿里云彈性高性能計算平臺E-HPC已經取得了大量的成功實踐。

深勢科技借助阿里云快速地搭建穩定的云上HPC集群,通過科學管理與靈活調度多種云上的資源,有效支持大量生命科學行業相關的應用軟件和容器部署,以30%的成本完成日均3萬VCPU資源的交付,業務效率提升50%。

阿里云影視渲染的HPC解決方案也參與了《楊戩》、《刺殺小說家》、《你好,李煥英》等多部影視作品的打造。針對渲染行業中云上素材和云上渲染集群之間數據傳輸,阿里云還根據數據IO的特征專門設計了混合云文件緩存組件,降低了專線的壓力。如在與MORE VFX的合作過程中,阿里云針對性的HPC解決方案減少了渲染過程中對線下數據的訪問量,提升了影視后期制作工作效率。

無論是工業仿真、生物科學、氣象預報、芯片設計還是影視制作,阿里云彈性高性能計算平臺E-HPC都能夠支持云上云下資源混合模式的統一管理,讓企業在短時間內獲取新業務和突發業務所需要的計算資源,保障業務能夠高效穩定的運行;當作業運行結束之后,立刻釋放多余的計算資源。

“云計算本身就是普惠科技的體現??萍嫉牧α?,讓以前只有在大型超算中心提供的算力,和所支持的應用能夠在今天云計算平臺上輕松實現?!卑⒗镌浦悄軓椥杂嬎?amp;無影產品線負責人、阿里巴巴集團研究員張獻濤博士表示,如果把傳統的超算中心比作“珠穆朗瑪峰”,那么,阿里云的E-HPC則是將高性能計算作為更為普惠的覆蓋,成為高性能計算的“青藏高原”,讓更多的行業可以享受到更加普惠、更加安全可靠、成本更低的高性能計算服務。

創新永無止境,第八代實例性能全面提升

在現有成果的基礎上,全量搭載CIPU和飛天技術架構的阿里云第八代實例(ECS g8i)即將發布。據悉,八代實例以標配自研eRDMA大規模加速能力,顯著提升網絡傳輸效率,支持更多高性能計算業務在云上的部署。

在算力維度,八代實例采用了英特爾即將發布的最新第四代“至強”可擴展處理器(代號Sapphire Rapids),“至強”處理器在通用算力提升的同時原生支持硬件,其中在AI領域訓練場景的性能提升2倍以上、深度學習以及加解密、解壓縮場景的性能也能夠提升4倍以上。

同時,基于第四代至強的八代實例搭載了TPM的可信芯片,在確保云上運行環境完整性的同時配合加密計算能力、內存加密TME的技術,實現云上的原生計算安全。

網絡及存儲IO也實現了大幅度演進。最新的云盤支持NVMe接口與共享存儲;物理網絡也全面提升到2×100G。

阿里云智能彈性計算&無影產品線負責人、阿里巴巴集團研究員張獻濤博士

當前,越來越多的主流高性能計算應用正在向云遷移,與此同時,高性能計算與大數據、人工智能等技術也正在走向融合。張獻濤表示,阿里云彈性高性能計算平臺E-HPC正在與傳統超算中心、智算中心一道,成為驅動技術創新與行業高質量發展的核心引擎。

未經允許不得轉載:存儲在線-存儲專業媒體 » 打造高性能計算的“青藏高原”,阿里云登榜第18屆CCF HPC China年會
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走