下午PCIe卡的論壇圓桌論壇環節中,我們邀請到了《大話存儲》系列叢書作者張冬(冬瓜哥)作為主持,四位來自知名互聯網公司的嘉賓,樂視云存儲技術總監 薛偉,締元信數據挖掘總監 柏俊海,美圖網高級DBA 楊尚剛和人人網系統工程師李蓓,幾位嘉賓分享了實際使用SSD的場景、使用中遇到的問題,對于未來應用SSD的期待等內容,讓現場聽眾聽到了走在技術應用領域前沿的互聯網公司在閃存應用上的真實聲音。

以下是文字實錄:

張冬:謝謝大家,今天我們特別有請了4位互聯問行業的專業人士,為大家分享一下固態存儲在互聯網里面到底是什么樣的應用場景。我們知道SSD,SATA接口的,誰都可以用,筆記本也用,互聯網也用,我們用的是消費級的,我們基本上沒有什么要求,感覺到快就可以了,互聯網里面用,肯定有很多其他方面的考慮因素在里面。借今天的機會,請了4位嘉賓過來,代表了互聯網行業里面4個不同的領域,我們開門見山,首先我想跟樂視云總監薛偉聊一下,能不能簡單先介紹一下樂視云產品承載的是什么樣的業務,什么樣的數據?

薛偉:樂視云整個大的平臺實際上是從樂視網演進出來的,傳統的視頻網站是一個固化的串行的業務流程,從視頻數據上傳一直到存儲,存儲完了以后,我們進行視頻數據的轉碼,這是很核心的業務,轉碼還要走CDN分發渠道,然后在所有終端播放,我們有自己的播放器。我們在串行業務流程上進行解耦,存儲作為總控中心和平臺中心。傳統樂視網站比較單一,就是視頻的數據,現在的樂視云存儲有很多文件、文檔、壓縮包等。樂視生態垂直于各個終端,我們將來是全生態的數據存儲和對外輸出的過程。

張冬:樂視云不僅上傳視頻,還可以上傳任何文件。我上傳了大量的小文件,每次登陸樂視云以后,后臺查數據庫,看看用戶有什么文件列表推送過來。這么多的用戶同時并發訪問,如何保證訪問速度,這里面是不是用了固態存儲?

薛偉:這里面用固態存儲非常好的提高我們的性能,從樂視網公司,我們是公共商用公司,我們會采用SSD ROI的問題,我們也用SSD領域,但是剛才你說的場景我們沒有用,我們用低成本的方案更好擴展,包括列表在供應商列目里面都有很好的響應速度。我們在樂視云存儲文件數目已經超過60多億條,這個列表每個人名下的數據是多么龐大。從數據庫角度進行優化訪問的話,SSD可以改善性能,但是云還有其他的方面,數據庫集群方案和集群擴展方案,所以這方面我們沒有用SSD。

張冬:SSD在這個場景不足以滿足你們?

薛偉:依然是很好的解決方案,我們用其他的方式也可以解決,所以就沒有用SSD,但是我們也有用SSD場景。

張冬:秒傳大家都清楚,上傳一個大電影上去,別人已經傳了,會瞬間發現別人已經存了這個數據了,這里面有哈希比對,比對的過程,這么大的哈希值也存到SSD上,還是存到更高速的其他的上面?

薛偉:會隨著我們數據量級進行升級,就是文件指紋,文件指紋的方式,后臺也有很好的管理方式去做,這個方式跟列表類似,都可以通過非SSD的方案得到很好的解決,上傳的那一瞬間就可以判斷,SSD對我們來講,還是比較昂貴的方案。

張冬:還是用機械盤存儲主體數據,用類似CDN的方式把超級熱的數據緩存起來。

薛偉:剛才我們講的是業務源數據和列表數據和業務關鍵指紋數據。從文件熱數據,關鍵場景用SSD。比如說樂視生態今年推超級手機,超級手機上就用SSD做輸出,這是不得已的。還有一個場景,SSD做整個的類似catch(音譯)的處理,比如說頻次管計算,這個量級是相當大的。 我們用SSD ROI得到很好的評測,降低硬件成本,用原始的方式不僅提高成本,而且還遇到了很多天花板。

張冬:你在使用過程中,最看重SSD哪方面的參數?帶寬、時延?

薛偉:可靠性、壽命,這幾個參數都是蠻看重的,可靠性是第一,壽命是第二,時延也是非常關鍵的,再往后就是通用的。

張冬:可靠性是您相對比較看重的。

薛偉:對,因為計算都是靠后面的解決,壽命是非常關注的,在寫的過程中,對SSD損耗是非常大的。

張冬:寫比較多,還是讀比較多?

薛偉:因為數據量級太大了,我們用讀的場景多一些,有一些計算的方案,通過SSD ROI還是用SSD方式去做。

張冬:下一位我想了解一下締元信,你們是第三方數據挖掘平臺,您能介紹一下締元信平臺嗎?

柏老師:我們是第三方數據挖掘分析平臺,提供數據分析和業務方面的服務。我們現在每天cookie的數量大概2億以上,月均40億左右,現在日均增長是1.5%以上,現在還在增長,我們這邊主要的服務對象是新浪、網易、搜狐這樣級別的公司。

張冬:您原始的數據是怎么獲取的?

柏老師:原始數據獲取有幾方面,首先有第三方cookie在第三方網站部署,我們會跟數據服務商合作,將數據整合,提供給其他的網站也好,公司也好去使用。

張冬:原始數據獲取以后存到類似hadoop平臺上。

柏老師:存儲平臺是類似hadoop,給用戶提供服務,核心用戶考慮使用SSD的服務。

張冬:對核心用戶使用SSD。我之前理解,大數據分析的場景,是不是基本上從原始數據,從磁盤上把數據大塊讀到內存里面,在內存里面不斷迭代、計算,還是說基本上每筆計算都要訪問磁盤?

柏老師:我們是第一種場景,我們不可能頻繁讀寫磁盤。對大數據分析來講,我們做索引和分組,這樣的輔助東西對磁盤要求比較高。因為SSD成本確實比較高,用傳統方案解決這些問題已經解決了,大數據分析另外一方面就是CPU負載比較狠,做特征提取等等方面需要大量的計算,比如說文本挖掘,吃CPU比較狠。當前我們在這方面做比較多的工作,后續當這些東西我們已經做成一些比較穩定的服務以后,我們會提供一些接近實時的數據服務,提供出實時數據服務以后肯定要考慮我有很多隨機讀的業務出現了,這時候我們可能就考慮使用SSD,在隨機讀方面非常優秀的媒介做這件事情。

張冬:我想再了解一下,現在SSD,您是每臺服務器都放SSD,還是有一些服務器專門全都放SSD?

柏老師:現在我們用的比較少,我們現在用的是有一些服務器有SSD,不是每臺服務器都放SSD。核心業務場景才會使用成本比較高的服務。

張冬:我注意到剛才您說的非常實時的計算,比如說流質計算、新數據進來,我馬上輸出一個結果,這種場景對SSD隨機讀要求非常高,是嗎?

柏老師:對。

張冬:你最看重SSD哪些參數呢?可靠性、性能?

柏老師:從技術角度來說看重性能,從業務角度來講,ROI是公司級考量最重要的,從可靠性,從價格,從維護成本方面都是我們要考慮的東西。

張冬:楊尚剛您能介紹一下美圖網數據庫存的是什么樣的東西,平時訪問量、壓力、查詢類型都是什么樣的?

楊尚剛:美圖網數據庫比較核心的,存的是類似索引、圖片、視頻索引,美圖網主推的就是美拍。比如說訪問美拍,訪問美拍類表,跟刷微博一樣,有這些需求的時候,就去數據庫取出來最近發的視頻,然后展示你發我的視頻,這個類型跟微博比較像,這個也是我們比較傾向使用SSD的原因,因為性能是比較好的。

張冬:現在你覺得目前系統有沒有瓶頸?如果有瓶頸的話,瓶頸點在哪個地方?

楊尚剛:目前的瓶頸主要是SSD本身的性能基本上很難有瓶頸,還是SSD本身有瓶頸,不能挖掘SSD本身的性能潛力。

張冬:SSD的性能已經足夠了。

楊尚剛:我們現在用的是6塊、10塊,這種性能單純做壓測,只讀可以壓到七八萬。正常來說,單塊實力很難達到這種性能。這個主要是RAID卡的原因。

張冬:現在做SSD還是做RAID的。

楊尚剛:單盤SATA的容量是有限的,英特爾、三星最大已經做到2T SATA盤了,容量是有限的。

張冬:你的系統不可能都是SSD,肯定有一部分,某些場景、某些數據、某些庫、某些表在SSD,這個策略是怎么定的,是自動分層,還是通過上層手動識別這個熱點,然后把分割到SSD上?

楊尚剛:美圖全部都放在SSD,沒有做區分,有幾個考量,我們數據量還沒有那么大,現在SSD成本也沒有想象那么高,從穩定性來講,還是放在閃存比較合適。微博數據量非常大,微博從09年到現在4、5年的數據了,尤其是微博內容,數據量非常大。2012、2013年的時候,我們嘗試過分層的方案,我們當時采用的軟件層面的facebook開源方案我們也做了,但是中間有很多問題,一個是flash有很多板,性能不穩定,后來我們從混合層的方案逐步遷移到全flash的方案?;旌蠈臃€定性比較差,比如說要插10塊SATA再插一塊卡,這種集群比較特殊,維護成本也比較高。

張冬:得益于美圖網數據基本上是非常聚焦的,可以說100%都是熱數據,數據量不大,這種場景非常理想。如果你換成電商平臺,里面各種數據魚龍混雜量非常大,這個時候很難平衡,到底誰在SSD上,誰不在SSD上。

楊尚剛:對,但是即使沒有熱點的話,你都放在SSD也比較好,不用區分熱點。因為怎么區分熱點是很復雜的,flash cach,究竟訪問幾次才是熱點。應用層的策略是比較靈活的,緩存層面是很難把握的。

張冬:都放SSD上成本受不了。

楊尚剛:很多電商網站,核心的數據也放在SSD上的。就看你的場景和要求。

張冬:你最看重SSD哪方面的參數?

楊尚剛:穩定性是第一位的。我們原來在新浪,對穩定性要求非常高,如果達到幾萬塊的SSD的量級,穩定性不好的話,性能好也沒有什么意義,穩定性是首要考量的。各個廠商的性能差距是非常小的。

張冬:作為社交類的平臺,人人網是不是像微博一樣數據冷熱分層非常明顯?比如說熱點、超級熱點、發了很多微博以后,很快就變冷了?

李蓓:實際上場景是很相似的,也是會有很多數據,所以處理數據的時候,就會有一些快速的產品解決這個問題。比如說Memory cach(音譯)把一些數據線存到機械硬盤,然后把一些非常熱的數據,或者列表存到Memory cach解決問題。

張冬:SSD在你們系統里面使用場景最大的是哪個?

李蓓:CDN、BB都會用到。

張冬:比如說一臺服務器上,SSD跟機械盤混在一臺,還是整個系統都是SSD?

李蓓:混插的。

張冬:不是做了某種特定的分層,還是從應用層挖掘熱點,還是把索引主動放上去?

李蓓:沒有做分層,主要是把數據直接放在SSD。

張冬:傳統的存儲廠商提供的透明分層的方案,目前來看是不太適合互聯網廠商的?;ヂ摼W廠商很清楚的知道哪一塊是熱點,下一刻數據可能有哪些變化。他們自己去控制數據,不是說把控制權放到底層做這些事情。您最看重SSD哪塊的參數?

李蓓:可靠性是第一位的,價格和性能也是比較靠前的?,F在隨著工藝和SSD產品的發展,性能方面很難分出伯仲,在穩定性和價格上考慮更多一些。

張冬:在座的4位有沒有感覺,我的場景用了SSD,但是性能還是沒有達到?

李蓓:目前來說的話,暫時沒有。

張冬:遠遠夠用。

薛偉:實際上我們做多個業務場景嘗試著用SSD的方案。其實有一個重要的方案就是分級存儲,透明的方式我們是不用的,我們用自己的算法進行調度。用了SSD,沒有什么改進的,有一個是用了SSD以后成本會增加。比如說數據庫的列表方案用它優化,改進的也會有,但是到了一定級別,我們都是用X86的,我相信這兩個到了一定級別,差異不是特別大。

柏老師:目前我們用了SSD有很大的提升,如果出現不夠用,不是它的問題,是我們自己設計的問題,或者什么的問題。

楊尚剛:瓶頸主要是SSD的平靜,Mysql也在推支持SSD的特性,比如說把SSD放在特殊的區域。SSD本身的性能確實比較好。

張冬:SSD使用過程中還有其他的問題嗎?

楊尚剛:監控,各個廠商之間的產品SATA有的參數也不一樣,英特爾主流的廠商看到讀寫量,單位什么都有小區別,各家有各家的工具,主推的NVME是一個方向,如果控制不好,后面也是比較亂的局面,這方面需要加強。

張冬:就是標準化,包括各種接口。

楊尚剛:可維護性工具上標準化的東西。還也一個就是SSD內部可以提供更多的用戶感知的東西,比如說寫放大比例,實際寫入數據量,讓用戶更好的監控這個東西,知道自己用的怎么樣。讓廠商開放更多的底層的參數。比如說與數據庫的結合,比如說國內SDB的方案(音譯)以后有一體化解決方案也是比較好的方向。否則現在SSD用的最多的還是Mysql過程中,所以場景還是比較狹隘的。

張冬:締元信對SSD的期望建議?

柏老師:我們希望全面了解它究竟是什么樣的情況。

張冬:想更加看透SSD里面到底是什么樣的,不想讓廠商封裝起來成為一個黑盒。

薛偉:我們正在做這個事情,邀請一些國際國內廠商進行閃存下一級的優化。實際上我們做樂視云,持續優化是我們不斷地追求。我們除了優化本身閃存自己的特征,我們圍繞更高級的,我不是加一個閃存就增加多少成本,而是加了這個以后,我對原有的內存可以減少,通過一加一減讓它的性能更好。之前所有的方法,用SSD的方法比較傳統,傳輸效率用DRAM提取數據。這種方式是大多數互聯網和廠商用的。第一怎么讓我們的CPU核數和內存容量減少,這是在Flash基礎之上的。第二我們建立一個數據中心,數據中心的能耗怎么降低,第三就是傳輸效率。希望進入這個領域或者正在從事這個領域,我們開放一些,大家共同發展。我們現在的方式,CPU直接對Flash,沒有走DRAM,我們 Flash橫向多了一個,基于FTBA的基礎發展NAND的控制器。對我們來講,不是路徑減少了,對我們聯動業務的串聯,在整體體驗上是一個質變,絕對不是量變。

張冬:你們做了用戶空間驅動的方案,把用戶的數據直接寫到Flash。

薛偉:對,直接在Flash,還用了RDMA。

李蓓:我非常同意大家說的,希望廠商開放一些接口,我們能夠通過這個接口,對卡進行監控,它的壽命和系數,都可以進行各種各樣的監控。

張冬:最后請各位大膽預測一下,固態存儲在它全面替換線上業務的時間,各位大概認為有幾點?

李蓓:比如說有一些老數據,放在SSD上本身就是一種浪費,還是看業務,主要的業務,大面積已經覆蓋了現有的閃存產品,以后如果全覆蓋的話,它的成本等等各方面都完善以后,我預測應該是5年左右的時間。

薛偉:這個時間取決于兩方面,一個是我們整個技術市場的大量的成長,我相信隨著SSD成本的降低,把它作為我們行業的標準習慣,這是一個加速的進程。另外一個取決于我們內部,我們也是把技術和經濟投資回報放在一起,我們也開啟了業務線不同層次的優化。包括我們超級手機已經應用了一些,以及廣告比較重要的,帶來收入來源的業務性,加上我們存儲核心引擎已經陸續開展了。隨著ROI投資回報的角度不同,一種是加它對業務的價值,還有對我們原來能耗的降低,維護成本等等,我們內部速度是非??斓?。兩個加起來的話,可能比剛才說的5年快得多。

柏老師:剛才我說了SSD自己本身的性能不是太大的問題,我們還有很多Mysql數據庫其他方面的因素,使它不能發揮它的性能。在這個層面上來講,我的感覺,大概也是5年左右的時間,需要給其他方面軟件也好,硬件設備提供一些時間支持SSD。

楊尚剛:我覺得還要看業務,比如說像數據庫,隨機讀寫不用5年,1、2年可能就可以了,大部分的已經替換了,沒替換的也是歷史問題,新的業務基本上都是純SSD方案。未來SSD可能是在公有云,RDS服務等等,以后都是基于SSD的服務。像其他的,比如說TFS小系統,本身就是基于隨意讀寫,你用閃存意義是非常小的,在這種場景下替換它,我覺得不是那么劃算。

張冬:謝謝幾位的分享。我們就以5年來看,希望我們5年以后,還在這兒,再聚在一起,暢談一下閃存,回想一下我們5年之前的預測,很有可能用不了5年,英特爾跟鎂光(音譯)開發了新的閃存介質,比NAND閃存快一千倍。底層很小一步的進展,就可能導致上層生態很大的變化,我們拭目以待,謝謝各位。

欲知更多關于2015中國閃存峰會的精彩內容請點擊查看閃存峰會全程直播報道專題。

未經允許不得轉載:存儲在線-存儲專業媒體 » 2015中國閃存峰會PCIe卡論壇:四位互聯網用戶暢談閃存應用心得
分享到

zhupb

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走