智能網絡釋放存儲無限潛能-存儲在線-存儲專業媒體

邁絡思亞太區解決方案營銷總監張輝

　　張輝表示，早期的矛盾主要集中在毫秒級別的磁盤介質延遲，而網絡延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而，現在的介質延遲基本已經被控制在微秒級別。這時候你會發現你的瓶頸主要矛盾已經不是介質，而是網絡本　　身和軟件堆棧。

　　以下為張輝的演講實錄整理：

　　今天我要講的內容是網絡如何把存儲的性能釋放出來，并把閃存的性能釋放得更高。

　　我們現在可以看到，閃存發展越來越快，整個生態系統也會增長越來越快，幾乎接近100%的增長速度。當然，NVMe相關的增長也更快，在2020年的時候，有70%的Server會用到NVMe。存儲方面，幾乎70、80%會用到NVMe。也就說，用不到NVMe的場景會很少。

　　最早的SAS、SATA、PCI的NVMe。這條做技術什么感覺？傳統的磁盤，走SCSi協議一路下來是沒有問題的，但是介質和技術在發展的時候，協議(軟件層)沒有更大的進步，這時候會出現效率降低。這里面有一個對比，一個是SAS，一個是SATA，基于SATA走PCIe的性能會出現幾倍的差距，因為NVMe把整個協議層做了重新的編寫，跳過了一些比較繁鎖的過程。

　　存儲是隨著介質的變化，科技的發展，當然最重要的也是來自于客戶需求的變化，迫使我們做更好。為此，我們有兩個層面的應對方法。一個容量更大，另外一個是速度更快。單介質目前發展的比較快，包括未來會有3D XPoint，而我個人比較堅信未來Flash會發展的越來越快，越來越好。

　　這個問題暴露出來這個單節點性能越來越好，那么他們之間如何通信？我舉兩個例子，比如北京的交通。我相信無論是北京還是三、四線城市都會擁堵，拓寬街道其實難以解決這個問題。那么怎么解決這個問題？不可能不買車，就像不可能不去運用我們這些數據，如何疏導也是一個問題。因此我剛才提到了帶寬，再一個就是協議層的調整。在網絡上相對比較簡單，我們看一下Mellanox是怎么做的。在NVMe出現以后你會發現，萬兆根本無法支撐，百G的情況下也只能跑3-4個。所以說，25G剛剛起步，一個25G剛剛夠支撐一個NVMe。

　　剛才我們談了介質，現在我想談“超融合”。超融合是典型的分布式，節點之間的通信流量會很大。因此這個技術對都網絡的要求會越來越高，對延時和帶寬也都有很高的要求。

　　再回到技術看一下，我們要優先解決網絡中的主要問題。早期的矛盾主要集中在毫秒級別的磁盤介質延遲，而網絡延遲和軟件堆棧(200+微秒)基本都處于微秒級別。然而，現在的介質延遲基本已經被控制在微秒級別。這時候你會發現你的瓶頸主要矛盾已經不是介質，而是網絡本身和軟件堆棧。目前Mellanox已經可以把軟件堆?？刂圃趲装賯€納秒?？梢哉f，目前TCP/IP方法論已經影響了整個系統的性能。

　　RDMA是什么？它就是遠程直接訪問，繞過軟件堆棧，繞過CPU，不需要CPU干預，因為內核會產生中斷，出現等待時間。而RDMA是遠程直接訪問的，CPU卸載后，效率會提升好多倍，200多個微秒的軟件堆棧延遲就可以忽略了。

　　今年會有一個新的標準RoCE(RDMA over Converged Ethernet)，是跑在以太網上的RDMA。性能比跑在InfiniBand上略低，但是相對之前行能也會有很多倍的提升，而且成本更低。今年6月份會有新的RoCE標準提出來，其中一個是RoCE會支持NVMe over Fabric。我們的新產品會支持200G。

　　在分布式存儲中，為了保證數據的安全性，會進行備份，但是利潤率會變低，需要糾刪碼提高利用率。糾刪碼需要做重新計算，需要CPU資源，占用率有時會非常高。在我們的產品上，會把糾刪碼交給閃存卡來做，不需要占用CPU。

　　NVME Over Fabrics這個很好，未來空間也很大。但是在傳統設計里，它也需要消耗CPU資源。因此我們希望CPU只是用來做計算的，如網絡計算，NVME Over Fabrics這些工作量，都可以交給閃存卡來做。

　　剛才講到一些產品和技術趨勢，現在我想介紹一下我們的產品。

　　今天我希望大家記住一個新單位，就是納秒。我們這款機器的延遲維持300納秒左右，和市場上的幾個微妙的以太網產品差10倍以上，這是低延遲。帶寬方面，目前是100G，明年我們還會有200G的產品推出。另外，丟包也是影響存儲效率的比較重要的問題，Mellanox目前可以做到0丟包。當然還有功耗問題，我們也提供了很低的功耗。

　　現在我想談一下閃存卡的問題。我發現有很多的技術在里面。首先是帶寬的問題， 100G帶寬，延遲0.7微秒，即700納秒，其中我們的卡的延遲只有200納秒，剩余延遲由軟件堆棧產生。從ConnectX 4開始，我們可以支持NVMe Over Fabrics。到了ConnectX 5這一代，開始支持NVMe的卸載，會釋放CPU的資源，讓你的CPU專門做復制、快照、重刪、容災等，從而實現低延遲，高效率。同時，ConnectX 5里還集成了E switch，基于這個卡可以創建出一個小的存儲系統。

　　到了BlueField的階段，它集成了ConnectX 5所有的功能，100G芯片，前后端的端口，支持PCIe Gen3、PCIe Gen4，同時還有一個ARM?？梢哉f，有這個芯片，和一個主板，就可以設計你的整個系統了。BlueField可以幫助企業建立全閃存系統,從前端的連接到主機，后端的連接到磁盤，再到計算。

　　目前我們最新的產品是ConnectX-6，支持PCIe Gen4，適用如高性能計算等應用場景。

　　下面我想為大家介紹一下落地的東西。第一個華為，在華為這款基于Mellanox的產品中，我們做到了1000萬IOPS;第二個是華云網際(FusionStack)，單節點做到100萬IOPS;下面是Memblaze，同樣做到100萬 IOPS，帶寬是10GB/s最后一個是戴爾EMC的Isilon，也是用的我們的網絡。在基于Mellanox的網絡里面，都能把存儲的性能發揮到極致。大家可以看到，我們所有的產品基本都是單節點百萬IPOS起。

　　我在這里面有一個觀點，如果想把性能發揮到極致，那么一定不能讓網絡成為你的瓶頸。反而要利用網絡，降低你的消耗，降低你的性能依賴，讓存儲系統跑得更快。

　　謝謝大家。

未經允許不得轉載：存儲在線-存儲專業媒體 » 智能網絡釋放存儲無限潛能

分享到

Mellanox NVMe RDMA 超融合

sunk

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走