峰會第二天,共舉行了十場分論壇。在“分布式存儲與應用論壇”上, 柏科數據渠道銷售總監劉夏鳴以“ 全閃存分布式存儲的應用與實踐 ”為主題發表演講, 分享了分布式存儲建設過程中的問題 ,介紹了柏科的三種實施方案、產品體系架構以及分布式存儲應用方面的成果和實踐。

以下內容根據速記整理。

圖:柏科數據渠道銷售總監劉夏鳴

劉夏鳴:大家好,今天我代表柏科數據介紹一下我們在分布式存儲應用上的一些成果和實踐。

關于全閃存分布式,在三、四年前,誰和我說分布式存儲全部使用閃存介質,我會啐他一臉,這個東西太貴了,大家做分布式存儲,都想著是高性能、高帶寬、低成本,其實這完全符合我們國人的一些想法,就是花小錢辦大事。

關于分布式的這個應用,給我的感受是很多的IT技術在用戶端的應用,是在一些實際的需求問題逼迫下產生的,在逼迫中尋求一種進步。柏科也是被實際的客戶需求逼迫來做全閃存分布式存儲的。

簡單介紹一下柏科。柏科進入到國內,經歷了12個年頭,國內基本上主要的地區都有全資分公司與一些合作的服務商,覆蓋了國內的主要區域。從某種角度來看,客戶分布也是比較廣,在服務能力上也是沒有問題的。整體來講,柏科一直是做存儲的公司,公司建立開始,我們的公司宗旨就是“Bring life to Data”,就是指“給數據注入生命力,活力永續”,我個人感覺就是數據的靈動。過去DAS,數據存入以后就基本不動了,現在分布式應用及互聯網的情況下,我們希望數據能流轉起來,能靈動起來,這里面有存有備有復制有遷移,有應用到大數據里面,有到智能數據湖中;就像水從源頭流入到湖里面,從數據湖里面可以做更多的針對數據的開發和挖掘,讓數據更有價值。

柏科公司從開始就是一個做存儲的專業公司,前身源自美國貝爾實驗室,專門做廣電媒體行業的專業存儲公司,進入到國內以后,發現用戶對產生的數據更重視安全保護,才有我們現在的備。從備份之后,大家想到數據放到本地還不夠安全,放到異地去,所以有了容災。從存的產品演化到備份容災產品,甚至到了分布式,我們的AI團隊也做了這方面工作,包括融合計算、統一計算等方面。

柏科產品不斷的演化和研發,按照用戶需求和自身對產品的要求,我們做了現在公司產品的延續。

今天公司其他產品線先不談了,只講和主題有關的分布式存儲,柏科在分布式產品線為什么能誕生。

從2009年,柏科開始做一些分布式的文件系統,早期的時候如果沒有記錯的話,那時候基于GlusterFS來做,那時候看到GlusterFS面對海量的小文件性能非常的糟糕,現在同行業里面也都在通過很多技術手段來解決此類問題。

2013年,我們推出了分布式塊存儲,就是在看到用戶業務需求里面又需要高的共享性,更需要高的性能,按照這樣的想法我們的分布式塊存儲也就這樣誕生了,在2013年已經在一些客戶里面去應用,包括一些做動漫渲染,國家級的渲染,比如說北京電影學院這些業務系統應用在這里面,2015年推出了文件塊和對象三合一產品,2016年在亞洲最大的動漫渲染基地新疆落地,里面大量分布式存儲應用到我們的產品,包括計算節點。今天講的主題全閃存分布式存儲。閃存介質很貴,怎么有效放到分布式存儲中呢?看一下我們怎么來做的。

業務需求驅動分布式存儲技術發展

一個好的產品發展也是應業務需求,分布式存儲整體發展也是業務需求導致,最早就是面對的海量數據能夠對它進行高性能高效處理,這是分布式存儲最開始的想法,但是到現在,大家會碰到或多或少的問題。我們需要不光是存儲,還加上計算的融合,包括如何應對海量小文件,包括新的介質融合,以及對塊設備這方面高性能的追求,包括數據訪問的負載,甚至和第三方業務平臺有一些接口等。在這樣的情況下,業務需求上都有不同的訴求。

分布式存儲建設過程中的問題

分布式建設中,我們當然會遇到很多的問題。閃存盤解決了機械盤的一些問題,閃存的性能會快,機械盤會慢一些。我們推出全閃存分布式,希望把性能提高。第二個是分布式文件系統的小文件的處理效率問題,就是海量小文件去訪問的時候源服務器的壓力會很大,分布式存儲系統應用帶寬問題,IO路徑比較長,對性能影響問題,這在系統建設的時候,是和高性能要求上背道而馳,還有分布式數據的安全性和可用空間的問題,這和傳統的SAN不太一樣的地方,分布式上用副本的方式解決。比如說兩副本三副本,雖然安全,但是空間利用率低。通過EC的算法有效的提升空間利用率。EC的算法如果做不好和我們的想法就背道而馳了,因為會影響到分布式系統計算的資源。塊設備延時也一樣。

為什么把全閃存放進去?柏科有自己的想法。我們從兩個角度來看,第一個,把分布式存儲定義成SDS(軟件定義存儲),其實來講SDS是一個廣的范疇,從我的角度來說分布式存儲只是其中一個部分,可以使基于X86架構的平臺,或者國產平臺;在某些應用領域替代傳統光纖存儲都是有可能,柏科也在這方面做。

分布式存儲系統到底是軟件硬件分離的,還是軟件硬件融合的。從軟件定義存儲的概念開始是一個軟件,首先大家很習慣分布式存儲是軟件,裝到通用X86硬件平臺上,所以軟件和硬件耦合度并不是很高。從柏科的角度是有點緊密的,原因在于,從每一個做硬件的角度和做軟件的角度來看,分布式里邊存在軟硬件兼容性問題,如何把硬件架構中的基礎部件“磚頭瓦塊”的性能壓榨出來,如果壓榨不出來就是性能的損耗,單一的節點,每一個節點性能不能壓榨出來,累加起來只能通過累加的(scale up)方式拼命的增加,某種意義上對成本控制是有問題的。所以軟件和硬件要有一個協調,要有一個兼容性,能得到更多的硬件的信息,通過軟件來調整,把硬件諸多的性能吻合發揮出來,從硬件上重構,可能是基于標準的硬件系統。

舉一個例子,大家買車一樣,量產的車都是四個輪子有門有座椅,柏科希望不是普通的量產車,在量產車上去加一些改造的一些配件,車改,但又不希望那些特別魔改的,魔改一塌糊涂,魔改車比量產車諸多方面都好很多,在座各位也有人希望改裝車,我們注重的是在成本控制下車還可以跑的快,符合開車人的需求。

我認為分布式存儲文件系統的應用者其實是駕駛員,你知道你的習慣是什么,你買分布式存儲是要解決什么問題。不管是量產車還是魔改車,還是適度改裝車,駕駛員是有很大的關系,也就是說用戶業務導向,業務需求對分布式存儲系統選擇有重大的影響度。菜鳥司機開著賽車,叫賽車手開量產車,菜鳥司機也跑不過,別看車好。

從柏科角度來講,硬件重構并不是完全推翻以前的標準架構,不是部分的節點上做魔改,魔改首先第一個在介質上,要通過SSD、當然不是放棄機械盤,只是在應用業務場景里,控制成本的情況下,通過引入SSD這種磁盤解決用戶需求問題,這里面有一個故事我一會兒再說。

剛才也講到了用scale up(縱向擴展)或者是scale out(橫向擴展)的技術,都是尋找一個平衡,其實不管引入新的技術,如RDMA、硬件TOE,硬件糾刪碼等,都是希望把延時縮短,盡可能靠近本地的處理,讓數據離處理中心計算更近一點,通過TOE網卡,壓載一下,包括我們很多柏科產品里面都會體現出這些,其他產品都有這樣的想法,用戶主要系統資源就是用到主要用戶上,我們需要盡可能幫助他把負載的壓力和負擔移植出來,也是貫穿整個柏科產品,其他產品線的產品都有這方面的想法。我們加入硬件的糾刪也一樣,通過硬件的糾刪來改善降低CPU處理的壓力,同某種意義上來講卸載這些壓力,同時提升處理的性能,從硬件重構的角度上簡單說一下。

剛才講到改造的角度上還有軟件定義。本質上各個廠商對軟件定義存儲,對分布式存儲系統有自己不同的理解,我們希望通過引入自己這幾年的技術,AI層面分解這些壓力,通過我們算法,通過我們了解磁盤的磨損,顆粒的磨損。

剛才我也講到,軟件在監控得到的信息都是由硬件廠商已有公開的信息,給什么接口才可以獲取,這些已經定義了。想進一步得到,得和硬件廠商或者芯片廠商有更好的合作,才可以拿到這些需要的信息。比如說,我們可以監控磁盤的壽命,預測磁盤什么時候壞,每一個硬盤廠商都有自己磁盤壽命的監管。第三方軟件獲取硬盤信息的時候,只能得到標準的信息。更詳細的SSD顆粒的磨損壽命等等是拿不到的,他不開放,這也是我們講一個生態圈。柏科在這方面,為了國產化、為了自己分布式,也和上下游廠商打通關系。

這里邊要講一個和投資人有關的故事。柏科的一個投資人,初創公司朗科優盤,當初投柏科的時候,也是認為能做一個“小的存儲”公司上市,也希望做一個“大的存儲”公司上市。柏科這幾年一直努力通過完善自己,希望很快走上資本市場。投資人就說了,要學會換位思考,做存儲系統里面有控制芯片,有硬盤、有柏科的存儲系統軟件,像華為做存儲系統。這些方面能打通橫向的關系和交叉的關系,主控廠商控制芯片廠商可以提供更多的信息出來。

在分布式存儲系統,大家都認為企業SSD和消費級的SSD壽命有很大的差異。柏科可以有效拿到磁盤的信息,通過軟件,可以讓消費類的SSD我們叫筆記本、臺式機的SSD盤,具有企業級SSD的那種管理性和安全性。其實消費類的SSD的性能現在不是很差,但是有一個先天的優勢就是它的成本,柏科通過軟件技術,通過硬盤的監控,可以把SSD顆粒壽命寫均衡,減少損耗等等,能預測到這個硬盤什么時候壞,我們自己開玩笑叫“算命”,這個產品我們原來應用到智能運維,和分布式一樣,都是軟件。通過這些軟件的定義可以對性能加速,有效解決這些延時響應快速的問題,包括AI智能監控等等,全閃存分布式存儲設想的初衷就可以實現。

彈出一張片子,特斯拉。為什么特斯拉可以賣很貴,也可以賣的相對便宜。很多人說買電動車詬病,為什么呢?特斯拉最核心是它的軟件和控制尤其對于電池管理。大小像五號電池的東西密集的排列起來,特斯拉在這方面做的很好,用了幾年以后電池損耗,電池部分失效的時候,并不會影響整體的性能。國內很多電池管理很差,迅速的衰減,電動車核心管理管控,輪胎座椅車板后視鏡都是一樣,都有很多的問題。

實際上,柏科希望通過對于硬件的重構和軟件定義,包括在這個生態里面做的事情,在分布式存儲市場里面能變成特斯拉型的、技術比較領先的、有特點的公司。

柏科的實施方案

在我們實施方案里,有三種。

一是純閃的SSD,二是混合存儲方案,通過SSD和機械盤的混插解決的問題;還有組合型的,通過獨立的SSD pool,或者HDD pool,通過軟件定義的算法,有效的按照合理用戶的需求將數據遷移到不同的存儲介質池中,這也是柏科的實踐。

產品體系架構

看一下整體的架構。

IS Cloud產品品牌,我們基于飛騰2000+已經完成了,申威硬件平臺也OK了,和華為鯤鵬平臺基本上也對接完成。從硬件平臺上完成硬件的兼容性,軟件的功能和接口方面,合作做了分布式塊接口,標準S3分布式傳統應該具備的。這些通過接口層把軟件功能層的功能可以通過我們的通訊化管理平臺給前端的應用。

這里面就不展開了,包括這些視頻、公檢法包括智慧城市包括海量視頻包括企業文件,金融票據醫療大數據等等。

分布式全閃的實踐

講一下這幾年在這些客戶上自己做出來的改變,通過硬件重構硬件定義給客戶實踐里頭帶來什么樣的好處。

這個案例當初想法總共1400路人臉攝像頭,主要人臉分析,1000路每天六千張,另外400路總共有兩個兩百路,一個一萬五千張每天每路、一個兩萬五千張每天每路,分別存三十天,最初業務需求處理的時候文件存儲延遲希望在每秒三百五十張,性能希望每秒不小于一百兆,計劃存儲8.4億張,最初規劃220TB,這是原來項目規劃。柏科部署了自己全閃存分布式產品,硬盤配了大概192塊希捷的Nytro 3731 1.6TB SAS SSD磁盤,最后在用戶實際交付的時候處理延遲變成每秒鐘420張,性能210MB每秒,存儲容量307TB,達到用戶在要求上的性能。

另外動漫渲染,最初的規劃電影公司做的,用的環境里24盤位光纖盤陣,加上24盤位擴展柜與8GB光纖接口,想給出自己的共享軟件,他的當時想做的渲染的素材是8兆的序列楨,25幀每秒,4K分辨率, 60分鐘的故事版內容渲染,當初做的規劃是每秒1.4G,渲染60分鐘故事版內容渲染出來1小時48分鐘。我們用三臺設備,最小的組合三臺配了36塊400GB希捷SSD盤對這套系統進行改造以后,渲染的峰值由1.4GB/秒達到2.7GB/秒,渲染時間由原來一個小時48分變成1小時7分鐘,完成同樣60分鐘故事板內容,提升還是很明顯。

這種案例對于柏科不少,剛才也講到了,新疆我們投資四五千節點渲染基地,號稱也是亞洲最大的。

在智慧城市業務方面,這幾年一直交付不少項目,其中一個項目計劃兩千個車道,圖片900KB,每路錄像頭,每天要一千張、存九十天,要求處理文件處理延時每秒231張/秒,性能每秒281MB/秒,實際上最后交付的時候用了六臺分布式設備,總共配置了132塊希捷1.6T的盤和84塊8TB機械盤,SSD pool里面在線放10天熱數據,機械盤 Pool放近線20天歸檔數據,達到的性能由原來280張可以變到310張每秒,性能變成360MB每秒,整體存儲容量并沒有增加多少,雖然用副本的方式只有883TB的物理容量;幫助用戶在這個項目上整體完成30%以上的提升,我認為還是不錯的。

對于HIC和SDS融合系統,我們自己也做了一個測試,其實在我們交付的用戶產品里面可以達到這個性能,超融合是我們另外一個產品線,分布式存儲全閃分布式存儲和超融合系統合作,我們節點里面我們產品里面四個節點狀態,用的三副本,虛擬機大概20個,每一個虛擬機分配16VCPU和24GB內存,當時做壓力測試用的4K隨機的讀寫,每一個節點里面,大概每路CPU用的2.2主頻的CPU,內存是256G。每個節點有七塊SSD,在這樣的情況下,在4K看到的一個數值,在64個碼流上并發讀的延遲是3.23ms、IOPS大概160萬,在64的并發寫的情況下可以達到將近460萬,所以整體的性能讀寫的IOPS的要求和延遲的要求有效做了一些改進。

這也是我們自己在分布式存儲一些經驗,產品交付的時候性能都可以達到客戶的要求,也可以看到我們在這幾年對于硬件重構和軟件定義領域的一些探索。針對業務需求,我們適當定制、去改造一些需要通過新的技術,包括硬件技術、軟件技術做一些完善。

以上是柏科這幾年的拙見,希望對大家有些幫助。另外,今天會場外面還有培訓,還有講座,有時間可以去我們的展臺,和相關技術人員溝通,謝謝各位!

編后:本次2019中國數據與存儲峰會(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對話,以及大數據、閃存系統、分布式存儲、第二存儲與容災備份、超融合與云存儲、人工智能、數據創新與安全可控、容器創新與應用、SCM第五代存儲與閃存控制器等十大主題論壇,超過100場的專業知識分享。初步統計,本屆峰會吸引了來自政、企、產、學、研、媒體等各方參會者約2000人,在線直播觀看觀眾再創新高,超過10萬余人次。

未經允許不得轉載:存儲在線-存儲專業媒體 » 柏科數據劉夏鳴:全閃存分布式應用與實踐
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走