問:NVMe這樣的閃存協議對于數據庫應用會帶來哪些影響?

武新:作為數據庫廠商,我們對存儲介質非常關注,因為數據庫數據最終要落到存儲介質上。對于存儲介質發展,閃存或固態硬盤技術帶來了存儲跳躍式的改變,這是我們如今所面臨的存儲大環境。

針對NVMe,第一生態系統已經建立起來了;第二NVMe是基于標準的,如果沒有標準,很難把生態建立起來。南大通用作為數據庫廠商,我們的軟件是運行在操作系統和硬件設備設備的基礎之上的,我們希望建立在標準化平臺基礎上,可以做一些技術預研準備,所以標準化非常重要。

至于數據庫軟件針對新的存儲介質,如NVMe硬件設備,是否需要做調整?這個回答就是:我們的數據庫軟件是可以用這些新的存儲介質上的,這沒有問題,因為這些新的存儲介質提供接口,通過操作系統來操控文件系統,這是標準化的。因此,數據庫軟件可以直接使用新的存儲介質,獲得新存儲介質帶來的性能提升。

但是接下來,數據庫軟件針對新的存儲介質進行優化也是非常必要的。如此可以進一步釋放硬件的性能和可靠性,以數據庫日志文件為例,我們把它放到閃存卡上,我們驚訝地發現,性能反而下降非常厲害。分析其中的原因,日志數據塊大小以及寫入的機制和閃存介質的協調還存在一定問題,類似這樣的問題,還需要數據庫廠商和閃存介質廠商的共同努力加以解決。

問:請您詳細介紹一下有關數據庫日志使用閃存卡的測試情況?

武新:我們知道數據庫為了保障數據的一致性和可靠性,對于數據的任何操作,如增、刪、修改都會記錄在日志文件中。如果交易失敗,可以借助日志實現數據的回滾操作。測試中,我們使用8TB日志文件進行測試,文件是4K對齊的,實際上,每個數據塊要比4K更小,這個產品20~30年前開發的,那個時候存儲系統I/O塊的大小和現在大不一樣。

測試中,我們的發現塊小于4K的時候,對閃存卡性能影響還是很大的,不知道其他廠商是否也發現了類似的問題。對此,一方面修改日志文件數據塊的大小,或者針對閃存卡進行優化,從而達到最佳的性能水平。對于關系型數據庫而言,日志對交易性數據是最為關鍵的數據,當數據交易頻發時,日志寫入的性能將至關重要。

 問:我們知道最新的操作系統,如Windows、Linux等都可以支持NVMe,這是不是意味著操作系統層之上的應用軟件不需要任何修改,同樣可以發揮NVMe軟件協議棧優化帶來的好處?可以這樣理解嗎?

武新:可以這樣理解。類似閃存卡這樣的產品,我們把它像磁盤一樣插到服務器里面,系統自動識別,提交給應用來使用。但接下來,應用軟件也存在針對硬件優化的空間,進一步把存儲介質的能力發揮出來,就像剛才所說的,硬件要靠軟件帶,而數據庫軟件則是最重要的軟件之一。

問:我們知道南大通用列式數據庫在大數據方面的應用的,能否介紹一下閃存對于列式數據庫和大數據應用的影響?

武新:這塊我們也做了很多測試,說到大數據應用,數據量相對越來越大,我們現在做的項目單個數據倉庫已經超過了幾個PB,接近10個PB的數據量,所需要使用服務器數量達到200~300臺。

在如此大規模數據量下,我們對計算、存儲的要求是什么?核心是高密度和高性能,也就是說,盡可能在有效空間里面存儲、處理盡可能多數據。閃存技術符合高密度、高性能革新的需求,如今,我們可以看到3.2TB、6.4TB閃存卡和盤,很快會有10TB以上產品出來;高性能方面,閃存在IOPS上實力強勁,這兩個因素結合在一起,我覺得非常有價值。

對大數據而言,在有效空間里處理盡可能的數據非常重要,因為數據量不斷增大,但我們不可能無限制擴展數據中心,所以閃存介質在這塊是非常有優勢的。

  問:閃存介質穩定性和可靠性可以滿足數據庫等關鍵業務應用的需求嗎?

武新:這個問題問的非常好,其實從數據庫角度來說,大家可能有一些誤區,認為第一追求是性能,其實從實際應用角度來說,最重要不是性能,而是整個系統的穩定性和可用性,這個比性能還重要,實際的應用角度來說,性能其實夠用就可以了。

實際應用中,很少有性能不夠用,果真如此是系統整體架構設計有問題。更多時候,用戶需要的是7×24小時,不間斷服務的可用性,包括軟件、硬件的可用性等等,這點是非常重要的。

回到閃存技術上,這幾年在企業級應用中閃存推廣不那么快速原因之一,就是他在壽命、穩定性上同比磁盤技術還存在短板,這個問題怎么解決?大家的思路都是一樣的,就是做成RAID,用空間來換可用性,就是數據多存儲,在一個機箱里面用RAID,跨機箱、節點可以用副本方式,特別是軟件定義存儲、VSAN等,用空間換取可用性,保障存儲節點出現故障時,整個存儲層可以繼續對外提供服務。

我認為未來肯定要向軟件定義存儲和分布式存儲方式發展,核心交易也應該是這樣的,這樣才有可能替代現在很高端的SAN存儲,這種存在了幾十年歷史很成熟很穩定的技術。

 問:就數據庫應用而言,集中式存儲和分布式存儲應該如何取舍呢?

武新:全陣列陣列還是延續傳統磁盤陣列的思路,就是一個集中存儲的思路。這種架構是一個垂直擴展的,這是過去三十年來支撐我們核心業務性,但我認為這個架構時代已經過去了。這不是技術問題,而是架構問題。為什么呢?

因為我們已經進入了大數據時代,從用戶角度來說,數據量在快速增長,移動端應用越來越多,這意味著所采集的數據一是要實時處理支持交易實現,二來所采集數據量要能夠進行分析,唯一可能滿足需求技術就是分布式,我認為我們真正進入了分布式的時代,不管是交易型數據庫,還是分析型大數據平臺都是這樣的,其中就包括存儲。

數據庫解決是計算問題,軟件定義存儲解決的是分布式的存儲問題,我認為大趨勢應該是分布式方式。至于全閃存陣列,我認為還是一個比較窄的市場。

 問:未來,閃存盤、閃存卡將如何演變?

 武新:從用戶角度來說,我們還是更喜歡用盤的這種形式,因為從應用角度來說更簡潔一些,熱插拔,換一個盤不需要把機箱打開,如果操作對象是閃存卡,對于操作,如防靜電等都有些要求。同等情況下,盤肯定更實用一些,另外從高密度概念來說,盤也更實用一些。

 

未經允許不得轉載:存儲在線-存儲專業媒體 » 南大通用CTO武新:集中式存儲時代過去了!
分享到

songjy

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走