冬瓜哥：閃存會怎樣改變系統架構-存儲在線-存儲專業媒體

會上《大話存儲》系列圖書的作者冬瓜哥帶來“閃存會怎樣改變系統架構”主題演講。演講內容如下：

謝謝大家，這么早過來；剛才主持人說的我非常贊同也比較感慨。就是隨著互聯網云計算大數據人工智能這一些概念的興起。底層的東西就越來越沒人關注了。底層的CPU存儲等等，這也是大勢所趨吧。但是不僅如此啊，就是底層不但是沒人關注了，其實它還是很多背黑鍋的很角色。之前不是有一個案例要么是丟數據要么是其他一些運維的事故。很多原因其實是人為導致的。但是很不幸，我們底層的這一些故障盤存儲系統大部分黑鍋都背在身上，很多人說盤有問題，你這IO下去數據沒保存住，各種黑鍋都在底層去背了，這個也是一個巨無奈，但是又是大勢所趨的這么一個現象。我今天想為大家分享的一些技術就是跟底層相關的，也是跟故障盤相關的，不會介紹太多的技術細節。主要是想大家展示一下，就是底層的技術發展對上層會帶來怎樣的架構方面的變化。

大家知道現在3DTLC已經在企業級廣泛應用，下周國內廠商有發布一個超過10TB的盤。大家可能也了解了一些3DTLC本來是2D只是在芯片上做這么一層晶體管，現在為了提升力度，制造方面的成本在一個晶片上同樣的面積上疊層。這種技術看似簡單，其實看里面有很多的不為人知的復雜性。包括特殊的指令，比如說上層并不是完全的透明，需要上層的適配底下的變化。當然這種適配大家看不見，一個新盤出來了接口是一樣，其實底下都能用。一個最重要的中國就是說控制器容量變大了，控制器資源變大了，里面的配置各方面都變大了，這對應的控制器就需要硬件資源對這么大容量的閃存空間做管理，包括一些校驗磨損均衡都需要跟高規格的控制器了。這控制器還必須考慮向后兼容以及各個廠商不動規格的這種，這個也是一個很大的包袱。

大家知道閃存它有一套標準比如說（英文）標準，其實各個廠商標準之外搞了一些東西，你想把閃存的壽命、性能發揮得比較極致的話你必須搞這一些私有的東西，這一塊底層是比較暗流洶涌的一個東西。

再就是剛才說的跟各個廠商，不同的廠商是不一樣的。有一個廠商給這控制器廠商提供一個接口，給另外一個廠商不提供一個接口，這里面也是比較皈依的。比如說有一個廠商對這（英文）發出一些存儲，你不告訴我質量，我發送一些私有的，但是你的那個字段八位的那你能表示2500，但是你手冊里面只有1289，剩下的1289有沒有呢？我不斷的試，看你的返回什么我猜測會是什么樣的東西，所以說控制器廠商對NAND的顆粒也是在極致的研究和控制過程中。

比如說相變存儲各種介質備選，就是相變存儲已經產品出來了，比如說4800S產品已經出來了，那個時間非常低，有很多人下一步會過渡到相變存儲。大家看一下這個圖是以（英文）控制器（英文）的圖，可以看到控制器有十幾個核心，為了應對這3D，首先這核心里面就是ROM、DOM就是數據支令緩存和數據緩存翻了一倍，因為你需要做更多的算法在里面，之前的容量捉捉襟見肘了。

再就是內部的DIMM頻率上去了，最重要有一個變化其實在后端，控制閃存這通過道這一端變化非常大，除了加入LDPC校驗最重要的是控制器后面加入了可編程的CPU進行。之前是沒有CPU的，之前只是一個硬件的狀態機，當然只能做一些標準指令的收發，一些標準的持續。咱們剛才也說了這一些（英文）Flash必須去研究，這種你就不適合用這種硬件狀態機去做這一件事，你就要搞一個CPU上去，寫一些微碼上去，根據你收集到的信息動態的判斷，應該給這NANDflash發送什么樣的命令。

我們再看一下很多在一些測試里面，比如說最近的AMDCPU兩路加上16塊跑到了900多萬的LPUS，這九百多萬夠不夠用呢？對于個人肯定夠用。但是特別企業級或者是互聯網前端的比如說大數據、人工智能這一個業務，這性能有可能也是不夠用的。比如說看似固態盤已經遠遠滿足你需求，但是不一定保證將來，可能很快性能又不夠用了，這就跟當時比爾蓋茨說640K存儲夠用一樣，當時點看可能夠用的，我想對于flash盤一樣，現在lash瓶頸有沒有，主要是在軟件，不是在硬件，硬件已經限制住了。

現在軟件方面的瓶頸主要是軟和硬兩方面，就是現有的硬件架構，其實對固態盤也是有一定的性能影響，大家看圖里面，CPU、SSD、網卡，這現在是比較熱點的硬件，大家都比較清楚了。GPU是人工智能這一些計算用的，也是很流行的，包括最近的比特幣的挖礦機，內存接到GPU、顯卡、網卡都往CPU上接，就是以CPU為中心的這么一個架構，其實這產生了一個問題，其實CPU在系統起到什么樣的作用？起到一個控制作用，比如說典型的大數據分析或者一個挖礦，挖礦誰來挖GPU來挖，因為GPU有幾千個核心，因為它的并行比CPU高得多。它的挖礦的數據從哪來從固態存儲里面來，或者大數據分析從哪怕來，CPU只是算，那你在中間這角色大家看一看是不是有點不太合適。

作為一個管理者你可以管理，你的生產數據也要從這兒走的話，顯然瓶頸就在你這兒了，現在有新的架構，這個是什么？這是PCIe switch，因為大家看到所有的組件都是switch，網卡顯卡。CPU也有PCIe switch接口，如果你以這姿勢看這系統架構，以網絡交換為中心，CPU它只是網絡上的一個控制者而已，它啟動操作系統它識別這一件設備這一些CPU來做沒問題的，但是數據也要從CPU來走的話，這瓶頸CPU就承擔不起的。

最好的辦法是什么樣呢？能不能讓數據直接從SSD透過數據轉化網絡，這網絡本身就是給數據轉化用的，它也不參與計算。比如說讓GPU來計算你寫的程序其實它是先要把數據從盤上你是配出一段緩沖，然后調用底層的接口，底層會幫你從這數據SSD拿到緩沖里面，然后在用GPU的接口。你把這一些數據巾幗組織成數軸，比如說幾百萬的列，然后你這告訴GPU，你從這把數據拿走GPU就發送一掉緩存指令，這指令也會路由到網絡上進入到DDRM控制器他從這數據拿過來，這數據多走了一條路。這個也是傳統路徑再回到網卡。再一個就是CPU NAND的瓶頸。我們看一下比較好的就是直接過來，CPU發一條指令可以發送一個指針加一個長度，這可以比較長，只要發送一次指令底下的數據就源源不斷往這送。

我們看一下顯卡的場景，顯卡如果用這種方式它是怎么一個數據流程，首先第一步你需要到這GPU分一個值，分到GPU的顯存里面。第二步你告訴SMD你把這數據直接寫到GPU的顯存里面，因為這是一個訪存可以直接過來。第四步還是調用CUDA開始對數據進行運算，我們看一下性能提升多少，大家看一下提升是非常高的，但是你要看帶寬的話，你要轉換成象素每秒的話，直接P2B它相對于傳統不P2B提升了大概530O，大家可以看到這成本非常高，關鍵的好處數據不往地面去流了，這時候CPU足夠的帶寬訪問內存，也就是說讓這CPU跑更多的計算業務，不被你這IO業務給沖擊了。再看一下NVMEOFFLOADEDCOPY，耗費CPU的內存資源，有另外一種方案，比如說我在PCE網絡上掛這么一塊NVRAM，第一步我先讓SSD寫到這兒，第二部分把數據拿走寫這到一面，相當于把數據這一個緩沖空間從CPU的內存里面拿出來，大家知道CPU最精于計算是邏輯控制，各種邏輯各種判斷。而它不擅于計算比較少的計算，就是128V某兩個大數相乘的算。

因為CPU里面有很多的分支預測流水線，它能把比較通用的場景優化的比較高。但是你如果讓它專用計算它比較好的吞吐量，但是它成本就不劃算了。你把這內存省下來，讓CPU載入更多的計算類，而不是要讓它去做數據拷貝沒有意義的?；蛘邇r值比較低的事情。這邊是一個Client端，傳統的路徑是數據、從內存里面被網絡發送到這邊，經過TCLP到主機端的再往后端執行，優化的路徑數據直接從RAM拷貝到緩沖區這邊CPU再讓SSND從數據緩沖區直接拿走，整個過程不會到這數據的RAM。

有什么意義？第一個意義就是說你要么還是這CPU還是比較強的，體可以跑工作的計算業務了，因為內存帶寬更大了。再就是你如果不想用比較強的，你可以用比較弱的可以省成本，甚至一些開源的這一些。因為這流量基本對它沒有什么耗費，只是發行流量而已。也就是說CPU只處理了15兆的指令不是處理數據。

可以看到剛才這方案里面基本上還是需要一個緩沖的，大家有沒有一種想法，就是數據能不能直接從這RAM直接發送SSD就完了，不姚先到這兒再到這兒，這個其實是需要一定的支持。就是說SSD上面需要空間，把這空間暴露出來才行，但是現在幾乎沒有SSD把空間暴露出來，但是你暴露真的需要準備這么大空間。比如說準備一個比較小的緩沖，這都是可以的。所以說推出這種SSD數據就可以直接從這兒過來了，網卡上的也可以暴露一些空間，這樣的話數據從邊客戶端可以直接先拷貝到它這兒，從它這兒再過來，或者說從它這兒直接過來就不需要一個臨時的緩沖區，這樣的話把性能再一次提上去。

就是說現在的網絡，現在的系統架構你要把整個東西發揮得比較合理不應該是以CPU為中心應該是以網絡為中心，現在有很多的網絡，比如說GenZ、CAPI、CCIX、QPI、NVLINK，這也是在嘗試搞一個整個通用的標準，大家有興趣可以了解一下。再就是3DXPOint，它對固態控制器怎么樣？會更加簡單不需要做磨損均衡這一些管理了。就是做控制器做部件的這產業，就跟這內存控制器是一樣，基本上就是幾大家半導體賣標準的IP了，里面沒有什么可定制的區別。這種高速介質怎么用呢？它可以把內存塊設備，也可以把特殊的設備到用戶空間，也可以掛到網絡上的存儲器，放到你用戶空間里面來用，來方便你的使用，這么多的技術其實還是為了提升我存儲的性能，其實性能還是遠遠不夠用的。我的分享就到這兒，也歡迎大家關注我的微信公眾號，謝謝大家。

致辭：把握閃存綻放追逐夢想

6月21日，由DOIT傳媒、存儲在線、中國計算機學會存儲專業委員會、武漢光電國家實驗室聯合主辦的2017中國閃存峰會在北京盛大開幕。本屆峰會以“把握閃存綻放追逐夢想”為主題，聚焦閃存產業鏈全生態發展，吸引了來自政府、企業用戶、產業供應商、學術研究機構，以及主流媒體各方的共同關注。同時，有超過6000人通過線上參與了本次會議。

首先我們祝賀閃存峰會勝利召開！

大家都知道隨著大數據時代的來臨，對于存儲的需求是越來越大。從我們所熟知的PB到EB甚至GB，還有更大的VB等等在不斷的發展。而存儲也得以快速的發展。當前據統計就是全球的存儲市場在300億美金這樣。而我們國家的存儲市場也超過了100億人民幣這樣一個規模。但是我們也看到存在著一些問題，第一個就是我們的一些高端的存儲技術還是主要掌握在國際上幾大廠商，另外就是存儲介質比如說閃存的顆粒、還有我們的硬盤等等的，我們都只能用國外的產品。所以這一些也是我們今后共同努力來突破關鍵技術，大力發展存儲產業這樣一個動力。而我們也看到固態的存儲是當前發展一個大的趨勢所在。我們現在的研究界大家比較關注的就是RAM、PEM還有TPM等等新的存儲介質，但是我們看到有一些缺陷要真正的量產投入使用還需要一段的時間。所以目前來看還是閃存是我們的主力軍。也就是說閃存相對來說比較成熟，并且廣泛應用在各種的存儲系統中間。而最近這幾年由于它的價格以及3D堆疊工藝等等發展使得它的價格進一步下降，相比于兩年之前我們看到下降了75%以上，并且有這樣一個更進一步的趨勢。所以使得我們看到閃存代替硬盤成為了一種可能，當前來說國際上的一些研究機構還有存儲廠商，都推出來這種全固態的系列的存儲產品，正在搶占全球的存儲市場。而我們也欣喜的看到，我國在存儲顆粒方面進行部署，去年國家存儲基地落戶武漢，也是計劃耗資240億美金來發展，國產的存儲器就是3D閃存，所以這應該來說都是可喜的跡象。而從技術上面來看，現在的一些熱點，或者說從我們應用的發展趨勢來看，應用的熱點主要有以下三個方面第一個就是這3D的技術，包括3D的閃存、3D的內存還有英特爾（英文）技術等等，特別是3DNAND的技術就是像三星、英特爾以及東芝等等都推出來產品，所以怎么樣把這一些3DNAND的技術應用到我們的固態存儲，全固態的分布式存儲系統中間，客服它的一些缺陷，充分發揮它的優點，也是我們研究界和產業界不斷推出新產品這樣一個動力。

第二個就是全閃存的陣列，這就是基于整個閃存芯片的價格下降，所以導致大家一致認為我們用傳統的方式，都是混合的方式。也就是說利用閃存的快速以及硬盤的大容量來做一個混合的存儲方式來對于速度和容量這樣各方面的需求?，F在閃存價格下降趨勢就是全閃存的陣列。但是到更大規模的時候我們還是要采用分層的技術，以及數據的自動遷移的技術來滿足在容量和整個性能之間的這樣一個折中。

第三個方面就是NVME，這就是AVME標準推出，使得我們傳統PCIE上面來實現，AVME得到我們低延遲、高的LPS等等，滿足我們對于性能的需求這樣一個技術。而進一步的當它在分布式系統中間使用的時候，所以進一步怎么樣采用IDMA，就是利用網絡或者相應的互聯的技術IDMA，進一步發揮閃存的優勢。其實在這里我也想介紹一下我們圍繞這發展的趨勢，我們實驗室也做了一些相應的工作，包括就是固態盤的技術，還有分布式的全閃存技術等等方面都是我們現在做的一些工作，具體包括多層、低質層的芯片怎么樣客服缺陷，做損耗均衡。另外還有基于LDPC、ECC的編碼技術以及數據布局還有緩存的策略還有結合底層介質的特性這種隊列的優化等等。并且結合現在可重構的SCA在控制器上面做加速等這樣的一些工作。也實現了PCIE商業產品的圓形還有支持NVME，還有可重構的系統，以及NV存儲系統等等。在經過幾年的努力，就是我們和一些廠商的合作，就是我們牽頭制定了工信部的行業標準，固態盤通用規范，這規范是2016年頒布實施在此我也希望我們實驗室能夠多和我們產業界的同仁來合作，來進一步的進我們的技術進行轉換，能夠在我們的國產存儲系統以及相應的方面發揮作用。我們也看到了我們這一次峰會將總顆粒、控制器還有NVME等很多個角度來介紹閃存的技術。剛才主持人也介紹了，我們計算機協會存儲專委會教授，下面會有一個技術方面的峰會，在此也歡迎感興趣的同仁一同參加探討。最后預祝峰會圓滿成功謝謝大家。

6月21日，由DOIT傳媒、存儲在線、中國計算機學會存儲專業委員會、武漢光電國家實驗室聯合主辦的2017中國閃存峰會在北京盛大開幕。本屆峰會以“把握閃存綻放追逐夢想”為主題，聚焦閃存產業鏈全生態發展，吸引了來自政府、企業用戶、產業供應商、學術研究機構，以及主流媒體各方的共同關注。同時，有超過6000人通過線上參與了本次會議。

未經允許不得轉載：存儲在線-存儲專業媒體 » 冬瓜哥：閃存會怎樣改變系統架構

分享到

2017中國閃存峰會冬瓜哥

wangky

存儲在線（DOSTOR）高級編輯

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走