大模型的火熱對AI基礎設施提出了更高要求,HPN7.0架構即面向AI時代對網絡高性能需求而研發。據介紹,HPN 7.0針對大模型訓練場景下規模大、大流多、突發強烈、穩定性需求高的特點,創新性地設計了“雙上聯+多軌+雙平面”的網絡架構,并配合最新一代的51.2Tbps單芯片以太網交換機和400G 高性能網卡,自研Solar-RDMA和ACCL通信庫,實現了單層千卡、兩層萬卡的高性能和高穩定互聯。

HPN7.0架構:為AI設計的高性能網絡集群

從2023年9 月開始,HPN7.0在阿里云展開大規模部署,大模型訓練性能較上一代架構在典型場景下提升14.9%,且大幅提高了智算網絡整體穩定性。前不久阿里云發布通義千問2.5版本大模型,就是基于HPN7.0高性能網絡架構訓練。通義千問2.5版本較2.1版本在理解能力、邏輯推理、指令遵循、代碼能力上分別提升9%、16%、19%、10%,中文性能全面趕超GPT-4Turbo。

阿里云基礎設施網絡負責人蔡德忠介紹稱:“阿里云從2017年開始探索端網融合的可預期網絡,HPN7.0更進一步,把端網融合的體系結構從網絡協議棧拓展到網絡架構和通信庫,實現了面向AI智算時代的全新網絡集群架構創新?!?/p>

網絡架構是網絡技術及系統的基石,重大創新如連城之璧般稀少。據了解,SIGCOMM此前關于傳統數據中心網絡的架構領域文章還是Google提出的Jupiter網絡,現已成為業界經典網絡架構范式。有專家指出,此次由阿里云提出的新一代網絡架構HPN7.0,有望成為下一代AI高性能網絡架構的新范式。

在SIGCOMM近50年的發展歷程中,來自中國大陸的論文僅50余篇,其中阿里累計入選25篇,是國內被收錄數量最多的科技公司。據了解,阿里云在高性能網絡領域已深耕多年,提出了端網融合的可預期網絡技術體系,并在業界率先實踐完成RDMA低延時網絡、智算集群網絡架構HPN 7.0等先進網絡技術的大規模實踐。阿里巴巴還曾獲評權威機構AMiner全球十大最具影響力的網絡研究機構。



未經允許不得轉載:存儲在線-存儲專業媒體 » 中國AI高性能網絡受國際頂會認可!阿里云6篇論文入選SIGCOMM2024
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走