阿里巴巴集團研究員、阿里云彈性計算產品線負責人、阿里云無影產品線負責人張獻濤

以下內容根據速記整理,未經演講者審定。

與客戶共同進步

迄今為止,阿里云已經在全球25個地域部署了80多個大型云數據中心,服務了超過300萬用戶,行業總數超過200個。在這個過程中,阿里云積累了大量有意義和價值的客戶案例。

1.云上奧運會

由于新冠疫情的影響,東京奧運會推遲到了2021年,阿里巴巴作為奧委會全球頂級合作伙伴全程參與其中。本次奧運會最大的一個亮點就是“云上奧運”。

阿里云彈性計算產品為全球奧運盛會直播提供了超強的算力支持:轉播時長超過9500個小時,官網APP的訪問人數超過了1.75億。由于數字化程度的提升,轉播中心面積減少了25%,現場工作人員數量縮減了27%,可以說,這次由阿里云技術支持的“云上奧運”完美收官。

奧委會主席巴赫的所言是對阿里云最高的肯定:“今年奧運會是數字化程度最為高的一屆奧運會?!?/p>

2.應對惡劣天氣

南方電網是中國比較知名的電網公司,為廣東、廣西、云南、貴州以及海南、香港、澳門提供電力服務。惡劣天氣對電力的影響是巨大的。阿里云和南方電網合作推出了國內首個神龍云超算平臺,大幅提升了天氣預報的精細化水平以及預測臺風的精準度。今年的第七號臺風襲來時,神龍超算云超算平臺以超出普通的云服務器5倍的能力有效地支撐了南方電網在臺風天的應急指揮:提前七天預測臺風的動向、每秒鐘浮點運算次數達到825萬億次、每30分鐘輸出一份詳細的報告。

3.支持貧困地區教學

眾所周知,云計算給人們的生活帶來了很多的科技紅利。如何讓處于欠發達地區的中小學生也能夠像大城市的青少年一樣享受云計算帶來的紅利呢?

阿里巴巴集團CEO張勇在今年云棲大會上宣布了一個“少年云計劃”,向欠發達地區捐贈1萬個云電腦機房,助力改善欠發達地區中小學的科技教育隨時隨地用上最新的技術?!吧倌暝朴媱潯币呀泦?,阿里云也希望更多的合作伙伴參與進來,為欠發達地區的中小學教育添磚加瓦。

國際權威機構認可:計算能力衛冕全球第一

在過去的一年內,阿里云除了服務好客戶以外也在苦練內功。

根據Gartner的最新評測,阿里云的計算產品在綜合服務能力方面再次衛冕第一的寶座。這份報告整體的評測非常詳盡,對于綜合能力的評測相當到位。僅在計算這個領域就有272個評分項。在這次評測中,阿里云的計算再次拿到了第一,IaaS和PasS也獲得了綜合能力第三的好成績。

阿里云的付出換來了更多客戶的成功,自己也得到了快速成長。

當然,阿里云也不會止步于此,而是在更大的維度上做出創新,在技術方面做得更加深厚,在產品方面做得更加豐富,在服務方面做的更加智能,讓智能化的服務變成主流。

在生態方面,阿里云也是追求更加的開放,與合作伙伴“共贏共生”。

持續推動技術的創新和升級

在技術方面,阿里云持續推動技術的創新和升級又取得了新的成果。

1.第四代神龍架構

阿里云發布了第四代神龍架構,也是最強的神龍DPU技術架構。

今年有一個非常熱的投資浪潮,就是投資DPU。已經大規模應用并且性能指標最強的DPU,就是神龍DPU。這個DPU 2017年阿里云帶領團隊業界首創研發出的新的技術架構,引領了DPU技術發展的浪潮。

DPU是軟件定義的技術架構,在云計算中用于數據的加速和服務質量的提升,同時又可以降低成本。在過去的四年里,阿里云作為DPU技術的發明者和領導者,發布總共發布了四代神龍架構,一代比一代的技術能力都要強。第四代神龍架構,提供了大規模的RDMA的組網能力。

傳統的這種RDMA的能力組網基本上都是在千臺規模就上線,神龍架構下的RDMA的能力其實可以做到數10萬臺的RDMA的規模。這樣的能力可以大大加速云上業務的創新。

2.大規模分布式調度技術資源管控和調度系統

經過12年的開發和迭代,管理著數百萬臺的物理服務器,通過提供APP將底層的資源做到可編程化,滿足客戶的自動化和一些高級的需求。超大規模的智能故障預測系統,可以提前識別出來硬件的故障,利用神龍熱遷移技術,可以讓客戶的業務在無感的情況下做到故障的提前規避,阿里云還具備業界最高穩定性,單實例可以做到99.975%的穩定性,一致性的體驗,也方便了客戶在云邊端使用一套代碼來進行集成,降低了整體的復雜度,方便業務的創新。

在資源調度方面,彈性其實是核心能力,每天都有數百萬臺的被創建和釋放出來,滿足客戶的極致需求。

阿里云通過了IDC大規模的性能測試,也是唯一一個通過了信通院云平臺大規模彈性性能測試的云服務廠商,可以在數分鐘之內彈出幾十萬核的算力,在5秒之內交付3000個的容器實力,滿足客戶對于彈性資源的極致需求。

在計算領域,近年來最為亮眼的一個領域是AI。達摩院今年在11月份發布的訓練模型參數已經達到了10萬億次。應對這樣一個巨量模型,對算力提出了更高的這種需求。阿里云基于RDMA網絡的800G GPU超算實例,不僅能夠利用神龍架構的能力,更多的網絡帶寬讓計算通信變得暢通無阻,分布式訓練方面表現性能強勁。同時,通過AIACC飛天加速引擎的整體加速,整個集群的效能提升了9.75倍之多,不論什么樣的規模,上十臺也好數百臺也罷,采用 fastGPU這種部署服務,通過API編程就可以把原來需要幾個小時幾天的部署個時間壓縮到5分鐘之內。

3.大規模彈性RDMA技術,為數據時代而生

RDMA是讓云計算和傳統IT產生本質區別的技術。

隨著互聯網數據量的增大,分布式計算的規模也越來越大,而大規模集群間的大量數據傳輸的開銷其實也是非常大的,給CPU帶來的負擔也是隨之加重的。阿里云在神龍架構的基礎上創新性地提出了彈性RDMA網絡傳輸技術,用戶可以在使用RDMA技術的時候獲得低延遲的體驗,eRDMA可以把規模提升到數十萬臺,并且兼容RDMA相關的軟件生態。這樣一個新的通信方式大大加速大數據、AI、高性能計算甚至是一些數據庫的應用:在機器學習場景中, AI訓練能力有30%以上的提升,通用數據庫場景中,性能有130%的提升,大數據的綜合測試也表現出比傳統傳輸高出30%的性能提升,工業仿真領域也會有20%以上的性能提升。

4.自研倚天710通用CPU芯片

隨著云計算的不斷發展,通用處理器的芯片會越來越多。

為了能夠更進一步的提升客戶價值,降低云產品的成本,在過去兩年中,阿里云自研了倚天710芯片,基于該芯片的云服務器將在不久后即將面世,滿足客戶多樣性的計算需求。

該產品的綜合性能測試結果,和業界標桿相比,其SPEC int 2017性能有20%以上的提升,能效比也優于業界水平50%以上。

5. 無影的大規模商用

除了彈性計算之外,阿里云還發布了另一個戰略級產品即無影的大規模商用。

無影作為一個端的算力的云化是一次成功的嘗試。截至目前,阿里云已經服務了超過2萬個客戶,也讓傳統的辦公、教育、個人娛樂這樣的算力通過像無影進行云化,同時還引領了一批云計算公司參與的熱潮。

無影云電腦是阿里云面向辦公IT領域構建的一個全新物種,它利用了阿里云過去12年間在分布式計算、分布式存儲和分布式網絡的能力,滿足客戶全方位的需求,再通過云原生編程框架,讓更多的軟件企業能夠做到云化轉型的同時還可以提供自己軟件產品或服務的更好的機制、體驗。阿里云也跟很多的軟件企業一起進行共創,在云電腦中讓傳統的軟件變成云服務,并且取得比傳統軟件更加強大的用戶體驗。

6.面向未來為元宇宙及AI構建起新型算力的基礎

最近一個詞非?;?,就是元宇宙。在新興的數字孿生、元宇宙和AI領域,阿里云通過底層的產品和技術的創新,與廣大的合作伙伴一起,提供一整套的端到端的算力解決方案:例如,清華大學能源與動力工程系聯手阿里云合作伙伴,利用阿里云的云端視覺計算解決方案構建了一個虛擬仿真功課的實驗教學平臺。在這個平臺上已經有16門課程、 32項實驗項目,每年以超過22400個學時供700多名學生學習。

生態更開放:計算巢助力合作伙伴產品立體化上云

上云,非常關鍵的一個詞就是開放。

在生態方面,阿里云今年構建了計算巢,作為在生態開放方面邁出的重要一步,希望借助阿里云十多年間積累的產品和技術方面的能力,讓軟件企業把產品更好的進行云化、變成軟件服務,幫助伙伴更高效地服務客戶,降低業務運營成本,實現更大的業務價值。

彈性計算四大能力全面服務客戶

彈性計算不僅僅只是阿里云提供底層計算資源的一個產品,而是有著更多層次的能力,包括豐富的產品實例、多形態的部署方式,覆蓋云上云下運維周期的套件,以及像無影云手機這些終端服務類一些新型的產品。

阿里云希望利用“深厚的技術、豐富的產品形態、智能的服務以及開放的生態”這四方面的能力,為客戶提供全方位的計算服務保障,讓客戶的云上創新更加簡單,更加高效。



未經允許不得轉載:存儲在線-存儲專業媒體 » 阿里云張獻濤:新算力、新業態,與客戶共同創新
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走