亞馬遜云科技大中華區解決方案架構總經理 代聞

在2024亞馬遜云科技中國峰會上,亞馬遜云科技大中華區解決方案架構總經理代聞表示,“只有在云計算的環境下,才有機會做這樣的從應用到CPU的全棧創新。自建機房和云服務的區別是柴油發電機和電網服務的區別?!?/p>

在代聞看來,亞馬遜云科技提供的是云計算服務,所以能夠在不斷提升服務能力的前提下,保持內部全棧創新的靈活性。同時能了解到使用最多的應用及其資源消耗模式,以此來挑選對用戶來說收益最高的技術點來優化,快速改進軟件和硬件堆棧,甚至CPU設計。

確實如代聞所言,這樣的迭代在傳統的軟件硬件協作割裂的物理機房時代是不可想象的。說白了,云服務提供的本質上是服務,它天生與用戶和用戶應用的關聯度更高,云服務商更懂用戶需求,所以能進行更有針對性的創新。

我想,這就是云計算能持續、快速推動技術創新的根本原因吧。

在2024年的亞馬遜云科技中國峰會上,代聞發表了題為《架構演進連接未來想象》的主題演講,詳細介紹了技術架構演進的三大主題需求:“基礎組件能力”、“架構體系創新”和“多元技術融合”,并呼吁技術人員,要看清變化的技術和不變的需求,積極推進架構演進。

基礎組件能力決定了架構設計

所謂“基礎組件能力”是指的是云計算的最基礎組件,包括計算、存儲和網絡,其中,又以計算作為最核心的組件。

說到亞馬遜云科技的計算,不得不提的有兩大創新,一個是Amazon Nitro系統,一個就是自研的Arm處理器Graviton。

Amazon Nitro系統實現了計算資源的高效利用,它將虛擬化管理、網絡和存儲卸載到專用硬件上,幾乎消除了主機性能損耗。這種創新不僅提升了計算性能,還為用戶提供了更高的靈活性和安全性。

沒有Amazon Nitro之前,亞馬遜云科技用11年時間開發了70個EC2主機類型。而有了Amazon Nitro之后的6年時間里,EC2主機SKU就從70個擴張到了750個??梢哉f,Amazon Nitro大大加速了EC2主機的開發速度。

其實,亞馬遜云科技的存儲和網絡也都從Amazon Nitro中受益。

存儲部分,在最新的 Nitro 平臺支持下,單個虛擬機的最大 IOPS 可以到 400K,存儲帶寬可以到 100Gbps。亞馬遜云科技重寫了閃存轉換層(FTL)算法,并且將它是放到 Amazon Nitro 系統的芯片里,將SSD訪問延遲降低了60%,抖動減少了75%。

網絡部分,Amazon Nitro讓主機獲得了更高的帶寬,從100Gbps、400Gbps,到現在的6.4Tbps。并且,最新Nitro支持的包轉發達到了30Mpps(Packets Per Second),即每秒處理三千萬個數據包。

除此之外,亞馬遜云科技還開發了SRD(Scalable Reliable Datagram)提高了網絡的利用率。重新開發了數據中心路由協議SIDR(Scalable Intent Driven Routing)來進一步擴大數據中心網絡的規模。

Amazon Nitro配合SRD以及SIDR技術,支持亞馬遜云科技建成超大規模數據中心網絡 UltraCluster。它支持的GPU實例可以到兩萬臺,如果使用亞馬遜自研的機器學習訓練Trn1實例,可以支持擴展到三萬個Trainium 加速器。

至于Graviton處理器則是業內另外一個傳奇。過去5年間,亞馬遜云科技發布了四代Graviton處理器,創建了150個EC2 實例種類,使用了超過 200 萬個處理器,擁有超過 50000 家客戶,這些客戶涵蓋了 EC2 最大的前 100 個客戶。

基于Graviton處理器的實例提供了非常高的性價比,是用戶降本增效的有力幫手。而且,其基于單物理核心提供單線程的技術可以提供更穩定的性能表現,配合多核心的優勢,具備很高的擴展性。

亞馬遜云科技的Graviton處理器是Arm服務器處理器陣營里的一面旗幟,它證明了 Arm服務器的可信性,也帶動了Arm技術生態。Graviton之后,如今三大云服務商也全都推出了基于Arm的自研處理器芯片,甚至也有第三方的Arm芯片服務商。

代聞表示,這些創新的基礎組件能力決定了架構設計,而架構體系創新可以拓展核心能力。那么,架構體系的創新拓展了哪幾個核心能力?又是如何拓展核心能力的呢?

架構體系創新拓展核心能力

在談到核心能力時,代聞提到了韌性、彈性與效率。那么,要如何提高服務的韌性,提高服務的彈性與效率呢?

亞馬遜云科技通過Amazon IAM和單元架構確保其系統的高韌性。Amazon IAM通過將系統設計為控制平面和數據平面兩部分,確保即使控制平面故障,各區域的身份驗證和授權仍能正常運行,提供高可靠的訪問控制服務。

此外,單元架構(Cell-based Architecture)將數據平面細分為多個獨立單元,減少單點故障風險,降低“爆炸半徑”。這種設計被廣泛應用于Amazon EC2、Amazon EBS和Amazon Aurora等服務,進一步提升了系統的整體韌性和可靠性。

在提高彈性和效率方面,亞馬遜云科技提到了Firecracker、Amazon Lambda SnapStart和Caspian。

Firecracker是一種輕量級虛擬化技術,可以快速啟動和管理容器化工作負載。它基于KVM構建微虛擬機,具備多層隔離和保護,顯著提升資源利用效率和安全性。

為了改善Java函數的冷啟動問題,亞馬遜云科技推出了Amazon Lambda SnapStart。該技術通過Firecracker快照技術,將啟動速度提高了10倍,并且,完全無需修改代碼。

Caspian技術實現了Serverless數據庫的高效內存管理,通過虛擬化和熱管理系統,動態調整內存分配和數據庫實例遷移,提升彈性和資源利用效率。

這些技術共同提高了云服務的韌性、彈性和效率,為用戶提供更高效、安全的解決方案,構建了云服務體系中的核心能力。

多元技術融合驅動架構創新

在更靠近應用的層面上,代聞強調要將多元技術融合來驅動架構創新。

以生成式AI為代表的現代化應用通常需要融合多種技術,如果在企業落地智能聊天機器人,就需要底層技術能夠管理所有與AI對話相關的數據。代聞表示,面對這類復雜需求,先要拆解需求,再使用專門構建的服務各個擊破,專門構建的服務可以提供最優的性能和成本。

生成式AI對數據架構提出了新的要求。在用戶交互側,要能做到更快的響應。在后端處理環節會涉及數據流的更新和ETL處理,處理的過程要盡可能高效且可靠。在大模型和上下文數據管理方面,數據也要被有效管理,以確保模型能夠準確、及時地提供所需的信息。

亞馬遜云科技通過RAG工程化手段融合多種數據庫。RAG技術需要協調多個數據源和架構組件來實現高效的數據處理和知識提取。不同的應用場景對平臺服務有不同的要求,這要求RAG技術能夠根據這些需求提供合適的解決方案。

為了解決數據同步問題,亞馬遜云科技推出了Zero-ETL技術,它避免了傳統ETL過程的復雜性和低效性,通過自動數據流動實現高效的數據同步。目前,亞馬遜云科技已提供六項專門構建的Zero-ETL能力,極大地提高了數據同步的效率。

隨后,代聞提到了亞馬遜云科技的優良架構體系(Well-Architected Framework),它涵蓋卓越運營、安全、可靠、性能效率、可持續發展和成本優化六個維度。架構師在設計應用架構時,需要在不同場景下對各種需求進行折中和優化。通過不斷演進和優化,幫助企業在云上實現高效、安全和可持續的發展。

結束語

在代聞看來,“基礎組件能力”、“架構體系創新”和“多元技術融合”這三大需求是不會變的,會變的只會是具體的技術。他認為,我們應該看清變化的技術和不變的需求,積極推進架構演進,連接未來的想象。

最后,代聞向架構師、工程師,以及任何有技術信仰的構建者發出呼吁:你的每一行代碼,你的每一種選擇,你的每一個決定,都是寫給未來的信。

過去十年,云計算為創新和創業提供了前所未有的便利,未來十年,生成式AI讓我們有機會一起重塑各行各業,想想10年后回首現在的自己,在這個特殊的時間點,What Will You Build?”

未經允許不得轉載:存儲在線-存儲專業媒體 » 亞馬遜云科技代聞:要看清變化的技術和不變的需求,積極推進架構演進
分享到

zhupb

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走