數據存儲產業服務平臺

呂智超:TCO and PCIe-RAID

  2015年8月5日,由DOIT傳媒和存儲在線聯合主辦的2015中國閃存峰會在北京盛大開幕。本次峰會以“閃存加速數據經濟變革–顛覆方式和速度”為主題,超過 500位各行業用戶代表,數十位頂級學者、產業精英和技術專家出席,以圓桌討論和主題演講等形式,從不同角度深入探討“閃存加速數據經濟變革”這一話題。

  在下午的主題演講中來自上海寶存科技的呂智超發表了題為《TCO and PCIe-RAID》的演講,以下為演講實錄:

  大家好,我是上海寶存科技的呂智超。

  關于Flash應用層面,大家應當比較熟悉。我原來做系統方面的工作,就站在這個角度和大家說一些,如果IT系統應用了Flash會帶來哪些收益。

  大家都明白TCO是什么,TCO有一個比較重要的計算公式,TCO=CAPEX + OPEX。CAPEX是資本性投資支出,OPEX是運營成本。如果我們計算IT的TCO的時候,其實最多的是運維成本,也可能也有一些其它的成本,包括一些資產折舊之類的,這部分的成本會直接從損益表扣除。我們站在運營公司角度來說,其實所有的東西都是TCO,哪怕買了一個桌子,給我一個人員。其實就是擁有這個人員,或者是擁有這部分資源要花費多少。任何一個公司都想把它整體擁有的所有資產的費用不斷降低。如果我們將TCO這個詞僅僅放在IT資產上的話,所有的CMO和CTO要負責的一定是想辦法降低它的IT資產TCO,而且在運營層面,最有效的降低TCO的方法就是把OPEX降低掉,就是運維成本在整個TCO的比例盡量降低。

  我們可以看到第三方的獨立調查,假定我們IT資產折舊時間是36個月,在這個時候各個項的支出占IT資產總支出比例是這樣的。我們可以看到紅色的是趨近于互聯網架構,藍色的是傳統IT架構,最容易的就是一個一個的項目,一個集中式計算,集中式存儲。

  按照業界的發展趨勢,分布式架構和云架構是發展趨勢。所以說我們未來的TCO模型是越來越向紅色的演進。如果我們是紅色的分布式架構的話,我們的運維整個的成本占總的TCO非常大的比例。按這個調查來看,運維成本占TCO的75%。

  我們怎么優化一個TCO呢?在承認IT資產的運維成本占最大比重的前提下,我們考慮如何通過降低運維成本來降低TCO?,F有IT服務器數量是一千,這個方法是方案A。我換一種思路,我將所有服務器的配置提上去,這部分服務器的一次性成本自然會上升,我假定采購成本上浮50%,這個是方案B。由于單臺服務器的性能提高了,我通過一些運維手段,單臺服務器,能夠承載的業務要比方案A要多,我們做這么一個假定,假定我采用方案B的時候,我的服務器數量只有方案A時候的二分之一。至于我怎么拿到二分之一,這個我會仔細講。如果我對比這兩個方案的時候,我會發現這么一個問題,方案B的采購成本是方案A成本的1.5倍。我們假定方案A花掉100塊錢,或者花1塊錢,總體TCO是1塊錢,按照剛才的公式來算,采購成本是2毛5,運營成本是7毛5。如果遷移到方案B的時候,我發現首先第一我的采購成本會變成1.5倍,這個時候會是2毛5乘150%,變成3毛7分5,由于服務器數量減半,所以我的運營成本會變成原來的0.75的一半,演變成了0.375,如果采用方案B,整個的TCO是0.375+0.375是0.75。我想辦法將我的服務器數量減半的話,整體的TCO會降低25%,這是非常簡單的數學。原來整體TCO1塊,2毛5,采購,7毛5運營,現在采購3毛7分5,運營業是3毛7分5,這時候就變成了0.75,這時候我的TCO就降低了25%。

  假設說這個成立的話,我們要獎勵TCO的可能的途徑是什么?我們充分最大化單臺服務器的業務性能指標,我們要盡量讓單臺服務器物理機跑更多的業務,可以跑更多的用戶,可以跑更多的計算,可以跑更多的虛機,但是我們要想辦法增加單臺服務器的業務承載能力。

  現在我們回顧一下,在IT系統當中,現在唯一的瓶頸或者最大的瓶頸是TCO,提升IO系統性能幾乎是提升整個IT架構性能非常必要的手段。原來我們遇到的問題是,我們CTO和內存是跟著摩爾定律走的,但是傳統磁盤不跟摩爾定律走,因為摩爾定律是預測電子軟件的,而傳統磁盤是機械部件。閃存將IT系統當中最大的瓶頸帶回摩爾定律的范圍內,閃存可以讓我們整個IT性能提升一塊。閃存可以給我們IT性能增強多少?

  傳統盤性能很低,閃存是SATA SSD價格的10倍,但是性能是它的幾十倍。我們會有原生的PCIe Flash。這塊是20倍,是傳統機械盤的20倍。原生的PCIe Flash的成本是SATA SSD兩倍左右,應用性能是SATA  SSD的10倍,是傳統盤的千倍、百倍。我們看看SATA SSD可以做成什么樣的變態的級別,我們提供幾十萬的IOPS,特定場景綜合讀寫IOPS幾百萬。

  在現有的IT系統當中,如果一個存儲提供幾百萬的IOPS,CPU都可能成為這個系統的瓶頸。在非常重要的數據庫的業務當中,非常關注延遲業務當中,PCIe Flash可以提供超低的延遲,是毫秒級的,同時還有非常大的容量,我們容量可以做到很大,Flash容量可以做到很大。提起Flash我們一定要關注溫度,溫度其實就是功耗。我們只說Flash可以帶動什么,Flash可以帶給我們比較穩定的超高的性能和超大的容量。這個時候,我們就能看到這些,這些都是在實際業務當中跑的。如果我們用了原生的PCIe Flash,我們能拿到3倍于SATA SSD RAID Mysql的性能的3倍。比如說綠色的是某國際品牌的160G的產品,藍色的也是某國際品牌的480G的產品,這都是RAID5,在數據庫方面,在Mysql數據庫方面,僅僅更換Flash會給我們帶來幾十倍的性能提升。按傳統的SATA SSD也會有幾十倍的性能提升。

  日志處理方面,后面有查詢時間對比表,應用了PCIe Flash以后,Text查詢是性能優化的近百倍,父子查詢性能優化4倍。這是某省稅務局的系統,這也是數據庫的應用,這是MPP數據庫。我們可以看到如果我在普通盤下是這個指標,這是83秒。這個圖片顯示性能提高15倍。

  我們再看一下這個,VMware虛擬機啟動風暴,我們可以縮短4倍的啟動時間,得到30倍的性能提升。

  我們有幾十倍的性能提升,這幾十倍的性能提升,帶來的是什么?這幾十倍性能提升,如果我們愿意用得當的運維手段的話,我們將服務器的數量減成原來的一半,是絕對沒有問題的,我們會將服務器的數量減到原來的一半。我們拿到75%,我們節省25%的TCO絕對沒有問題,因為我們可以通過優化硬件,優化存儲的性能來將服務器數量減半,進而拿到25%TCO的優化。我們采用原生PCIe Flash降低TCO25-50%,我們總是要追求更加極致的東西。這時候我們會問,我們能不能再做點什么,其實把服務器數量降為原來的一半,其實在增高你的業務密度,你可不可以有更高的密度,高密度就意味著一臺主機需要更大容量的存儲。如果更大容量的存儲,我們用的話,我們要不要擔心單點失效的問題,這些問題寶存都考慮過。我們今年發布了一個世界上目前為止唯一的獨家技術我們叫PCIe-RAID。

  PCIe-RAID技術是干什么的?我們客戶經常問我們,即使你們的卡穩定,它是一個電器軟件,它終究會壞的,這時候我很無語,因為客戶說的是對的,它肯定會壞的,這件事很難辦。原來我們有RAID陣列,壞一塊盤我們可以換掉,我們想能不能做成這樣,我們的目標很簡單,我們在系統當中提供一個容量特別大,性能特別高,可靠性特別高的邏輯塊設備,這個和RAID沒有什么區別,但是它是跑在高速Flash上的。這里面有一些技術關鍵點,第一個關鍵點,我們必須要用FTL層,我們必須感覺物理地址?;谲浖腇TL層才可以構建跨設備FTL層,這是基于軟件的。第三件事基于PBA的RAID實現?,F在我們用了一個Flash設備,當這個Flash設備給系統扇區1的時候,系統看到的是扇區1,但是扇區1所對應的數據存儲的位置,一定不是你Flash第一個芯片的第一個page一定不是這樣的。你系統認為拿到的是物理地址,但是實際上對于閃存設備來說,你拿到的是虛擬給你的邏輯地址。我們要想辦法讓系統看到這個閃存設備的閃存真真實實的物理地址是什么,我才有可能全局做磨損均衡,所以一定要基于PBA構建RAID算法。最后一個是為了冗余保護我們會采取2維RAID方式,達到最大的保護效果。

  這個就是這個系統的架構,舊系統FTL緊挨著Flash。Host看到的是RAID控制器給它的地址,這是虛擬的。RAID控制器給它的地址也是虛擬的。新的架構,把FTL和RAID的實現統一融合起來,讓系統直接感受到FTL給它的就是真實的地址,controller就做控制的功能,不做轉換。這時候Host看起來,我這層FTL看起來,這個Flash和這個Flash是沒有區別的。其實在這種情況下,系統看到的就是一堆Flash,我要做的把這些Flash做一個影射,做好磨損均衡,給到上層應用就可以了。

  這都是一些簡化圖,我可以在一個機箱里面部署多片原生的PCIe Flash,這個是5片的PCIe Flash,這5片做一個RAID5,任意一片壞掉了,這個RAID不會有問題。我們可以定義計劃性的窗口換掉它。這個RAID是怎么實現的呢?各位將紅線框認為是一張PCIe卡的話,我們橫著做一個RAID,縱的做一個RAID,這4個數據校驗位在這里,這4個數據校驗位在這兒,這是4個校驗位,這是兩層的RAID,這是二元RAID4。RAID5和RAID4的區別是穩轉校驗存儲。把這塊挪到這兒,把這個挪到這兒,這就是二維RAID5。單個卡RAID壞掉,這張卡不壞,整個一張卡壞了,這個系統不壞,這就是雙層的保護。

  PCIe-RAID,RAID5允許一個PCIe Flash設備徹底失效,未來有可能支持RAID10,PCIe接口支持熱備設備,8639接口支持熱插拔,熱維護,跟普通的RAID陣列維護方式幾乎是一樣的。在這種雙重保護的情況下,考慮到直接將OP釋放到15%以下,因為我們原來的默認OP是27%,所以我們會給用戶回饋更多的用戶可用空間,會把OP釋放到15%以下,這樣大家買到的東西量更足一些。

  我們用2U的服務器,如HP DL 380Gen9允許我們構建50TB裸容量,最高40TB用戶可用容量。  如果是3U服務器,最多可以部署11張全高的PCIe板卡,如 Supermicro Gen X9DRX+-F,90TB 裸容量, 最高80TB的用戶可用容量。

  PCIe-RAID優勢,大容量,高性能,全局垃圾回收GC和磨損均衡。某塊卡磨損度可能很高,全局會解決這個問題。我們基于PBA的RAID實現,我們基本上解決了RAID5的問題,第一個寫放大系數遠遠小于2,如果你用傳統的閃存產品做RAID的話,綜合寫放大系數遠遠大于2,一般在3以上,這是物理特性決定的。PCIe-RAID技術解決這個問題,會讓全局寫放大系數遠遠小于2,我們徹底避免RMW/RCM。Host-Base 的UniFTL 可以感知校驗數據狀態,避免寫洞。

  現在標準化的產品演進也很快,為什么寶存認為Host base是很好的方向呢?如果我們在系統當中感知到閃存的情況下,我們可以做好多事情,我們可以定制化好多事情,現在為客戶定制化無數個東西,我們針對數據庫、IO做優化,我們可以做PCIe-RAID,我們還可以做很多其他的事情。寶存宣稱是軟件定義的公司,希望寶存在IT系統方面提供更多的幫助。

  欲知更多關于2015中國閃存峰會的精彩內容請點擊查看閃存峰會全程直播報道專題。

未經允許不得轉載:存儲在線-存儲專業媒體 » 呂智超:TCO and PCIe-RAID
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走