邁絡思亞太區解決方案營銷總監 張輝

  張輝表示,早期的矛盾主要集中在毫秒級別的磁盤介質延遲,而網絡延遲軟件堆棧(200+微秒)基本都處于微秒級別。然而,現在的介質延遲基本已經被控制在微秒級別。這時候你會發現你的瓶頸主要矛盾已經不是介質,而是網絡本  身和軟件堆棧。

  以下為張輝的演講實錄整理:

  今天我要講的內容是網絡如何把存儲的性能釋放出來,并把閃存的性能釋放得更高。

  我們現在可以看到,閃存發展越來越快,整個生態系統也會增長越來越快,幾乎接近100%的增長速度。當然,NVMe相關的增長也更快,在2020年的時候,有70%的Server會用到NVMe。存儲方面,幾乎70、80%會用到NVMe。也就說,用不到NVMe的場景會很少。

1

  最早的SAS、SATA、PCI的NVMe。這條做技術什么感覺?傳統的磁盤,走SCSi協議一路下來是沒有問題的,但是介質和技術在發展的時候,協議(軟件層)沒有更大的進步,這時候會出現效率降低。這里面有一個對比,一個是SAS,一個是SATA,基于SATA走PCIe的性能會出現幾倍的差距,因為NVMe把整個協議層做了重新的編寫,跳過了一些比較繁鎖的過程。

2  存儲是隨著介質的變化,科技的發展,當然最重要的也是來自于客戶需求的變化,迫使我們做更好。為此,我們有兩個層面的應對方法。一個容量更大,另外一個是速度更快。單介質目前發展的比較快,包括未來會有3D XPoint,而我個人比較堅信未來Flash會發展的越來越快,越來越好。

  這個問題暴露出來這個單節點性能越來越好,那么他們之間如何通信?我舉兩個例子,比如北京的交通。我相信無論是北京還是三、四線城市都會擁堵,拓寬街道其實難以解決這個問題。那么怎么解決這個問題?不可能不買車,就像不可能不去運用我們這些數據,如何疏導也是一個問題。因此我剛才提到了帶寬,再一個就是協議層的調整。在網絡上相對比較簡單,我們看一下Mellanox是怎么做的。在NVMe出現以后你會發現,萬兆根本無法支撐,百G的情況下也只能跑3-4個。所以說,25G剛剛起步,一個25G剛剛夠支撐一個NVMe。

3

  剛才我們談了介質,現在我想談“超融合”。超融合是典型的分布式,節點之間的通信流量會很大。因此這個技術對都網絡的要求會越來越高,對延時和帶寬也都有很高的要求。

  再回到技術看一下,我們要優先解決網絡中的主要問題。早期的矛盾主要集中在毫秒級別的磁盤介質延遲,而網絡延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而,現在的介質延遲基本已經被控制在微秒級別。這時候你會發現你的瓶頸主要矛盾已經不是介質,而是網絡本身和軟件堆棧。目前Mellanox已經可以把軟件堆??刂圃趲装賯€納秒??梢哉f,目前TCP/IP方法論已經影響了整個系統的性能。

  RDMA是什么?它就是遠程直接訪問,繞過軟件堆棧,繞過CPU,不需要CPU干預,因為內核會產生中斷,出現等待時間。而RDMA是遠程直接訪問的,CPU卸載后,效率會提升好多倍,200多個微秒的軟件堆棧延遲就可以忽略了。

  今年會有一個新的標準RoCE(RDMA over Converged Ethernet),是跑在以太網上的RDMA。性能比跑在InfiniBand上略低,但是相對之前行能也會有很多倍的提升,而且成本更低。今年6月份會有新的RoCE標準提出來,其中一個是RoCE會支持NVMe over Fabric。我們的新產品會支持200G。

  在分布式存儲中,為了保證數據的安全性,會進行備份,但是利潤率會變低,需要糾刪碼提高利用率。糾刪碼需要做重新計算,需要CPU資源,占用率有時會非常高。在我們的產品上,會把糾刪碼交給閃存卡來做,不需要占用CPU。

  NVME Over Fabrics這個很好,未來空間也很大。但是在傳統設計里,它也需要消耗CPU資源。因此我們希望CPU只是用來做計算的,如網絡計算,NVME Over Fabrics這些工作量,都可以交給閃存卡來做。

  剛才講到一些產品和技術趨勢,現在我想介紹一下我們的產品。

  今天我希望大家記住一個新單位,就是納秒。我們這款機器的延遲維持300納秒左右,和市場上的幾個微妙的以太網產品差10倍以上,這是低延遲。帶寬方面,目前是100G,明年我們還會有200G的產品推出。另外,丟包也是影響存儲效率的比較重要的問題,Mellanox目前可以做到0丟包。當然還有功耗問題,我們也提供了很低的功耗。

  現在我想談一下閃存卡的問題。我發現有很多的技術在里面。首先是帶寬的問題, 100G帶寬,延遲0.7微秒,即700納秒,其中我們的卡的延遲只有200納秒,剩余延遲由軟件堆棧產生。從ConnectX 4開始,我們可以支持NVMe Over Fabrics。到了ConnectX 5這一代,開始支持NVMe的卸載,會釋放CPU的資源,讓你的CPU專門做復制、快照、重刪、容災等,從而實現低延遲,高效率。同時,ConnectX 5里還集成了E switch,基于這個卡可以創建出一個小的存儲系統。

  到了BlueField的階段,它集成了ConnectX 5所有的功能,100G芯片,前后端的端口,支持PCIe Gen3、PCIe Gen4,同時還有一個ARM??梢哉f,有這個芯片,和一個主板,就可以設計你的整個系統了。BlueField可以幫助企業建立全閃存系統,從前端的連接到主機,后端的連接到磁盤,再到計算。

  目前我們最新的產品是ConnectX-6,支持PCIe Gen4,適用如高性能計算等應用場景。

  下面我想為大家介紹一下落地的東西。第一個華為,在華為這款基于Mellanox的產品中,我們做到了1000萬IOPS;第二個是華云網際(FusionStack),單節點做到100萬IOPS;下面是Memblaze,同樣做到100萬 IOPS,帶寬是10GB/s最后一個是戴爾EMC的Isilon,也是用的我們的網絡。在基于Mellanox的網絡里面,都能把存儲的性能發揮到極致。大家可以看到,我們所有的產品基本都是單節點百萬IPOS起。

  我在這里面有一個觀點,如果想把性能發揮到極致,那么一定不能讓網絡成為你的瓶頸。反而要利用網絡,降低你的消耗,降低你的性能依賴,讓存儲系統跑得更快。

  謝謝大家。

未經允許不得轉載:存儲在線-存儲專業媒體 » 智能網絡釋放存儲無限潛能
分享到

sunk

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走