OStorage(奧思數據)創始人&CTO李明宇。

感謝堅持到現在的各位,現在比較晚了,還要感謝前面的嘉賓,比方說同樣是來自深圳的杉巖在時間上把控的非常好,我參加過很多會,下午五點鐘開始的議題能夠按時開始的很少。

今天我帶來這個分享的題目正好和大會的題目吻合,“新存儲,贏未來”是我們公司的slogon,今天這個存儲峰會主題也是說的“新存儲,新常態,新應用”,說明現在確實處于一個變革的階段,變革的時期,大家都在強調新,而且這種變革的速度只會越來越快,就像剛才說的“嚇尿指數”,越來越短。而我們說的“贏未來”的含義是幫助我們的合作伙伴、幫助我們的客戶贏未來。

aa

這里談到對象存儲,今天很多嘉賓包括上午的主會場還有下午的分會場,不斷有嘉賓講到對象存儲,說對象存儲是未來,說明大家都看到對象存儲的趨勢,那現在我們就專門把對象存儲作為一個主題來談一談,我們公司叫OStorage,大家記住英文名字就可以了,當然能知道中文名字“奧思數據”更好,OStorage其實就是對象存儲Object Storage的縮寫,我們公司相信將來每一個機構、每一個企業都需要對象存儲。

今天第一位嘉賓狒哥說到IDC一些預測,我們這張圖也是IDC預測,從2013年4.4ZB增長到2020年44ZB,我相信到PB這個量級大家已經很熟悉了,44個ZB也就是說44兆PB是將來全球數據量。而其中90%的數據量增長來自于非結構化數據,我相信在座都是搞存儲,所以也不需要特別花時間講什么是非結構化數據了,實際生產生活中產生的很多數據都,例如說文檔、照片、視頻、醫療影像,基因測序數據,搖桿數據、科學觀測數據等等都是非結構化數據。如果只是數據量增長還不足以推動對象存儲它的這個變革,還不足以達到說將來每一個公司每一個機構每一個企業每一個政府部門都需要對象存儲,現在是隨著數據量增長,同時伴隨另外一種挑戰,就是數據管理、數據訪問、數據使用方式的變化,例如整合多數據中心資源、突破地域限制分布數據、對海量數據支持高并發和高可用的訪問、安全的數據共享、支持虛擬化和Docker等新的IT技術……這些是新的需求,在這種情況下,伴隨著數據量增長,傳統NAS就捉襟見肘了,人們就需要轉向對象存儲。

bb

cc

所以后面是舉了一些例子,比如金融領域現在隨著遠程辦卡、票據電子化、互聯網金融等新業務的開展,產生越來越多的圖片、影像、音頻等數據,而且金融客戶都要求跨數據中心多活、雙活等,再比如交通、安防,僅北京市的交通探頭一天的視頻數據就達到了PB級,一個商業地產公司每天要存儲和管理來自一個地域內分布在不同城市的停車場的圖片、視頻數據,比如萬達在珠三角區域的幾十個商場,數據量大而且要分布存儲、統一管理,這些視頻和圖片存儲是分布在各個城市或者同一城市相距數十公里的多個地方、但是管理要統一。傳統文件系統設計上一個方面是層層嵌套的目錄樹,另外一方面對隨機寫特別重視POSIX文件系統接口,這兩方面原因導致系統的Scalability(可擴展性)沒有辦法做到特別好,對數據遠程分布和共享訪問支持不能夠支持的特別好。

dd

所以我們就想辦法,怎么解決上面的問題,首先把命名空間扁平化,然后另外提供更簡潔的數據讀寫接口,一方面便于實現剛才我們說的可擴展性,另外一方面實際上讓編程變得更加容易,那現在當我們思考這個問題反過來想難道以前這個人就故意設計出來這樣的復雜的編程接口嗎,傳統文件系統接口的目的是什么,傳統文件系統中這兩個比較根本的設計源于上個世紀六七十年代,是滿足那時候的需求的,所以他們并不是做得不好,其實在滿足當年的那些需求上,他們已經做得太好了,只是現在時代變了,需求變了。

而現在我們談論的數據量增長、并發訪問、跨數據中心分布等需求在企業級對象存儲系統誕生之前,在淘寶、Facebook、Amazon等互聯網公司就已經遇到了,他們提出了一些諸如TFS、HeyStack等解決方案,這些方案中都有兩個突出的特點就是我們前面提到的命名空間扁平化,和更簡潔的數據讀寫接口。今天人們基于這兩個特點,開發出了為企業級用戶提供的對象存儲系統,有些場合也把它稱之為“類S3存儲”,這里的S3指的就是AWS S3對象存儲服務,國內有阿里云的OSS對象存儲服務等。我們做的OStorage-EOS就是企業級對象存儲系統。

ee

這些存儲系統首先把數據存在buckets或者containers,而不是復雜的目錄樹,命名空間扁平化,并且相比一些互聯網公司的方案,更進了一步,對大對象的支持,這是符合企業市場的需求的,OStorage-EOS可以以比較高的吞吐率讀寫單體GB級、最高達單個對象數百GB的數據;另外,更簡潔的數據讀寫接口,也更進了一步,不僅僅是簡潔讀寫接口,而且是服務化的接口,基于HTTP的RESTful接口,方便廣域網上的訪問。

ff

我們的產品OStorage-EOS企業級對象存儲系統,是基于開源軟件叫Swift打造的,中午吃飯聽到討論開源事情,現在用戶選擇時候到底選開源軟件還是選商用軟件,如果真是對企業級用戶來說,我覺得他肯定需要有一個靠譜的商用軟件,但是這里面包含開源是很正常的,我經常舉例子是蘋果,所有蘋果的設備的操作系統,iOS、Mac OS X,我想沒有人質疑是高質量的商用產品,但是它們的核心,沒有任何一個例外,都是基于Darwin內核的,一個開源操作系統內核,而我們公司定位就是基于開源軟件來打造一個商用產品,Swift在我們里面相當于Darwin操作系統,我們打造的OStorage-EOS相當于蘋果iOS系統,我們跟一些合作伙伴打造軟硬一體化解決方案,所以我們既可以提供純軟件解決方案,如果軟硬一體化解決方案我們希望它能夠像蘋果的手機和電腦一樣,那我們的理念這兒說的有點大,不過確實能類比一下,對象存儲有這個趨勢它非常的簡潔,簡潔的命名空間、簡潔的API,提供很好的用戶體驗,但是并不代表系統簡單,就像蘋果手機一樣,面板上只有一個按紐,非常簡潔,用戶體驗非常好,但并不代表系統簡單,我們是做了很多工作來達到這個目標。

而我們為什么選擇Swift,現實應用百PB級部署案例,比較穩定,我個人在前幾年在中科院的時候就將Swift應用到了軍方一些系統里,運行的非常穩定,加上近些年充分的測試與生產實踐,我們有足夠的信心。另外我們是軟件定義的存儲,我們基于傳統的通用的服務器和網絡硬件構存儲系統,以較低的成本構建大規模存儲系統。另外我們架構是全分布式的,無集中節點,任何一個節點的故障都不會影響到整個系統可靠性和可用性。我們系統可以近乎無限的擴展性能隨規模提升,實際現在通常遇到的是網絡硬件瓶頸,訪問存儲的入口帶寬不足,只有萬兆或者兩萬兆,限制了性能的提升,如果客戶的網絡條件還可以進一步提升,整個存儲系統性能也能隨之提升。

另外,我們對糾刪碼研究比較多了,可以很可靠地應用于生產環境,比傳統分布式存儲的三副本技術進一步節約硬件投資50%以上,特別像視頻存儲這樣的場景,節約的成本非??捎^。另外我們支持跨地域部署,比方說一個高校有多個校區,一些地方在建的區域醫療影像中心有多個醫院和數據中心,還有像比方說有的機構可能有在比方說深圳那邊有總部,在香港有分支,在美國海外還有分支機構,這樣就可以用我們存儲系統搭建一套跨地域的存儲集群。另外我們提供安全增強,比方說數據加密、多因子認證等,這些是通過企業級插件來實現的,還有其他一些插件,例如兼容傳統文件接口,而且我們全面兼容阿里云OSS,這應該說世界獨一份,我們可以全面兼容阿里云OSS這樣可以給用戶帶來更多選擇,比如構建混合云存儲,一些對加密有要求的數據用我們的數據加密插件來對數據進行加密存在本地部署的OStorage-EOS中,另外一些數據可以放到阿里云OSS上。aa

bb

這是系統架構,在這里面Swift是Kernel的地位,前面針對企業用戶需求打造很多插件,架構圖這樣話貌似我們的工作都在Swift外面,實際上在所有的各個服務里面我們其實也做了我們一些模塊在里面,比方說跨地域多活,用戶經常問到跨地域復制,當我數據中心之間的網絡不穩定,斷了后來又連上了,那斷的這段時間內,到底哪些數據沒有復制到遠程數據中心,后來網絡恢復了,數據異步同步過去,到什么時候我知道前面的數據都同步完了?這些問題Swift不會回答你,我們的OStorge-EOS能回答。這只是一個小例子,其他我們做了大量研發工作來把它做成一個企業級產品。

qq
下面把我們產品的三個比較重要的features展開說一下,一個就是跨地域,這里邊data1三副本分布在這三個地方,一個數據中心的三個節點,大家看到data2、data3三個副本有兩個分布在主數據中心另外一個分布在異地數據中心,這說明我們除了在跨地域做數據分布以外還可以控制到底哪些數據只放在一個數據中心,哪些要跨數據中心分布,這張圖是兩個數據中心,如果是多個,我們還可以控制說哪些數據分布在哪幾個指定的數據中心里。實際上我們還可以控制寫入的優先級,如果這邊有寫請求,希望所有數據確保在主數據中心很穩定寫下來,可以讓寫請求發到這邊,讀的時候優先取這邊數據副本,可以做讀寫上的優化。

rr
這是另外一個示意圖,這兩邊其實是一個整體存儲集群,把一個存儲集群劃成兩個Region,每個數據中心對應一個Region,中間通過跨數據網絡來聯通。

tt這個圖曲線現實的是我們在客戶那兒看到一個現象,那么從這個時間點開始某一個數據中心里面的節點開始出現故障并且逐漸所有存儲節點都不可用,然后我們可以看到下面數據讀寫成功率,所有數據訪問成功率全部是100%,然后中間大家可以看到性能有衰減,不可能沒有衰減,有一半節點都已經沒了。后來到這個時間點,實際上就是那個時間點故障修復了,性能又回來了,中間有些波動新寫出來數據后臺同步會占用一些資源,所以性能不可能一下恢復到故障前的穩定性能。

yy
前面是我們同城雙中心部署的,還有異地的更遠400公里,這個結果發表在今年4月份美國OpenStack峰會上,我們當時在IRC討論組里面有個老外提出想聽人講講這個問題,我們就提了一個proposal去講了一下,這個柱狀圖都是訪問延遲,綠色是優化之后,藍色是優化之前的,經過優化以后寫性能得到成倍提升,那么對于讀性能來說優化的更加明顯,可以達到一個數量級甚至兩個數量級的提升,這個是我們在這種跨地域的存儲集群做的一些工作。

aa另外對跨地域來說,有客戶給我們提,我們現在是兩地三中心,將來擴展到三地六中心去做有沒有方案,答案是肯定的,可以跨全國多個城市多數據中心做分布式存儲,全國范圍內我們已經做到了,目前我們還沒有全球范圍實踐,我們也很期待合作伙伴和客戶會給我們帶來跨全球多個數據中心實踐的機會。

bb
另外就是糾刪碼,把一個對象切成四個數據分片,編碼生成兩個校驗片,最多可容忍任意兩個設備故障,普通硬件加上糾刪碼技術,對于節省用戶存儲成本來說非??捎^。這里要提一下,現在很多存儲系統都在說要支持跨數據中心、支持糾刪碼,這些要看它是不是真的支持在生產系統里面用,要看他對這些技術到底做了多少研究,我們在前幾年在中科院的時候,就能夠把一個Hadoop集群在不停機的情況下,從一個數據中心熱遷移到另一個數據中心,這中間是有很多講究的,還有我們在2013年的時候就在研究說如何結合糾刪碼和信源編碼進一步降低存儲成本,所以這些都是我們玩得很透的東西了,做了充分的準備,才讓我們客戶去使用,絕對不是說看有人在做,立即也抓緊做,做完抓緊給客戶推,我們做存儲,靠譜最重要,用戶的數據絕對不能丟。

aa
第三個要介紹的feature就是兼容傳統文件系統,OStorge提供將對象存儲空間作為一個盤掛載到Windows和Mac上,就相當于是可擴展性很好的容量很大的一塊U盤,Linux服務端的傳統文件系統兼容我們也在做,還沒有ready,現在還沒有對外推,這個支持Windows和Mac的是ready的,可以放心去用,我們自己也在用。

bb對象存儲是面向未來,也是像很多友商說到未來是對象存儲的時代,我們今年主要是做OStorage-EOS產品,明年除了在糾刪碼和跨地域這個領域我們會繼續做一些更深入工作以外,還會增加讓存儲更加智能的一些東西,比方說數據預處理、對信息鑒別防止非法信息到我們的存儲系統里面去,例如提供公共服務,防止客戶上傳淫穢圖片進來,私有云存儲中,防止用戶把秘密文件放到了不該放的位置,還有對視頻做一些預處理,如人臉識別,對象存儲跟其他存儲比為什么說面向未來,不單單把數據存下來就完了,這個我特別贊同前面演講嘉賓紫光西部數據胡總說的觀點,就說這個存儲不是底下這一層簡單給用戶完了,面對新的需求怎么樣豐富產品是我們要考慮的問題。

再有比方說跟Hadoop和Spark集成,支持大數據分析;支持搜索,我們現在想在海量對象里面把我需要數據檢索出來怎樣做,我看前一段時間AWS一個產品Athena就是干這個事情,AWS的Athena就是為S3提供數據搜索服務的,我們也做了有一段時間了,“所見略同”,我們明年將正式推出這個功能。

cc
最后我想用這張圖結束今天的分享,這個是跟前面數據量增長44ZB是同一個報告里面的,IDC把整個世界的數據市場分為兩塊,一塊成熟市場一塊新興市場,預測2017年,以中國俄羅斯印度等等這樣一些市場為代表的新興市場將超過以美國歐洲為代表的成熟市場,所以今天我們確實處在一個非常好的大環境里,“新存儲,贏未來”,幫助我們客戶贏得未來的挑戰,以國際一流的技術水準服務中國客戶,這就是我們公司OStorage。

這個是我們公司的二維碼,如果大家感興趣可以掃一下,我們會把一些技術東西在里面做一些分享,有些問題大家直接在公眾微信號留言我們也會回答,謝謝大家。

編注:中國存儲峰會是每年一度、亞洲最具規模的存儲產業年度大會,歷時十二載,記錄了存儲產業的諸多變化。每年的存儲峰會都吸引學術界、產業界和最終用戶代表的積極參與。存儲峰會對中國存儲行業的發展做出了許多重大貢獻。云計算、大數據對傳統IT產業帶來了許多變化,為IT系統提出了新的要求,存儲作為IT系統中極為重要的一環也在迎接新的挑戰,正在舉行的2016中國存儲峰緊抓熱門需求,從技術、產業、產品角度,匯集了資深行業人士,呈現年度最權威的存儲盛會。

 

未經允許不得轉載:存儲在線-存儲專業媒體 » OStorage(奧思數據)李明宇:對象存儲助力企業應對未來的數據存儲挑戰
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走