華中科技大學信息存儲系統教育部重點實驗室主任、武漢光電國家實驗室副主任謝長生。

謝長生:各位下午好,我今天講的題目,一般的關注不夠。云數據中心的冷數據存儲。我們是一個研究單位,華中科技大學信息存儲系統教育部重點實驗室,現在我們很關注這個問題,我想介紹一下我們現在的進展。

數據量是爆炸的,facebook做了一個測試,一天之內的訪問品路是非常高的,過了一天就冷下來了,最后越來越冷,訪問的頻率就越來越低,熱數據變成冷數據,冷數據又不能丟,有很多大數據分析,雖然它是冷數據,但是你用的時候還要把它調出來用。還有的數據,需要保存很長時間。凡是和人的壽命有關的,你的健康醫療數據、銀行、社保數據,至少保持和你壽命一樣長,一般保持七八十年甚至一百年。有的科學實驗數據,比如說人的基因苦數據,要進行基因分析的時候,要研究遺傳疾病的時候,要研究好幾代人基因的變化,才能把數據拿出來,所以那個數據可能要保存幾百年。

中央電視臺每天的新聞聯播要永遠保存;開國大典的資料,經常需要用到,也要長期保存?,F在我們對這個問題實際上重視不夠,花了很大的代價,實際上用很貴的產品存冷數據。

facebook做了一個統計,他們自身的數據中心有89%的比例都是冷數據。一般來說,占總量的80%以上都是冷數據?,F在的情況,熱數據一般放在SSD,溫數據放在7200轉的硬盤。很多數據中心把冷數據放在低速硬盤上,浪費了大量的能源,而且代價非常高。還有放在磁帶庫上。

今天主要介紹一下最近兩年興起的用光存儲做冷數據的存儲。

冷數據用什么介質最好?國際上對幾種做對比,硬盤、閃存、磁帶和光盤。存冷數據的大部分數據中心,都是用低速硬盤存冷數據,也有不同的用法。我國很多數據中心就是放在活動的硬盤中,低速硬盤中,一天到晚在那里轉,其實很少讀它,這就是很大的浪費,而且硬盤的平均壽命是5年,過了5年以后損壞率急速上升。磁盤陣列,一塊硬盤壞了,又壞一塊硬盤的概率很高,數據容易丟。硬盤就是5年倒一次,存50年,100年的數據,要用硬盤倒好幾次。

硬盤另外一種用法,像facebook用mei的技術,用的時候就打開,不用的時候就關了。但是,長期放在那不用,5年后是不是能起來都是問題。國家檔案局做了實驗,有的硬盤放了好多年,拿出來以后個別硬盤就卡在那呢,起不來,有的時候電路都燒了。長期把它關電的雖然從節電角度來講是好的,但是它又有很多可能起不來,或者來回起損壞硬盤的情況。

閃存作為長期保存介質其實不是很好的方案,第一它貴,放那么多冷數據成本太高。第二閃存是用電荷保存的,現在高密度的閃存單元,一個單元就十幾個電子,放10年可能就差不多漏掉了,信息就沒了。作為冷數據長期保存很貴,壽命也不長,也不是很好的選擇。

磁帶容量大,價格低,能耗低,應該還是比較好的,但是磁帶壽命也不是很長,平均壽命10年。干燥的地方和潮濕的地方用不一樣,在潮濕的地方可能就發霉了。

光盤目前有很多好處,因為是非接觸的,很可靠,能耗也低,價格也很低,唯一的缺點就是容量不太高,藍光光盤壽命可以是50年以上。

我之所以強調光盤,是因為光盤最近有一個很重大的突破,現在可以買到200G一張藍光光盤。

主流存儲設備就是磁盤陣列、磁帶庫、光盤庫、固態盤。

這樣的情況下,經過比較,認為我們要發展大容量的光盤庫做冷數據存儲,它有很多好處。

光盤成本非常低,塑料上鍍一層膜非常低,而且壽命超過50年,可以防水。日本人做一個實驗,把光盤放在海水里再撈上來基本上沒有變化,放在磁帶和硬盤的數據都完蛋了,但是放光盤上的數據洗洗還在,它不怕水,還不怕炸彈,硬盤都是磁原理,用非常高的強脈沖一沖擊,就會毀掉,光盤不怕這個,對溫度、濕度也沒有要求,不會發霉、粘連,不像硬盤5年倒一次數據,不像磁帶10年倒一次,光盤50年倒一次就可以了。

facebook研究得出一個結論,光存儲是最適合冷數據的介質。目前唯一的缺點就是容量不夠大。

由于這個原因,國際上現在有一些重量級公司開發大容量的光盤庫,代替磁帶庫和硬盤做冷數據存儲。

松下公司一個6U的可以裝1800片光盤的機構。華錄跟松下是長期合作的,現在跟松下合作做這個東西。這是facebook主導的,一個標準機架42U的可以放10368片,軟件技術都是facebook做的。這樣的結構是找蘇州的一家公司做的,還有一些核心的光驅,精密部件是松下做的。2014年開始在市場銷售和展覽。在存冷數據的時候,比現在硬盤要節省一半的能量和降低一半的成本。

光盤,國際上主要以日本公司為主,由美國facebook公司主導。

5年前看到這個趨勢了,所以我們和廣東的一家公司合作在國內自主開發,做了一款國際上容量最大的,比facebook還大,我們是12240張,比facebook2014年推出來的同樣的體積多兩千張。市面上100G的藍光光盤已經大量上市,一個柜子可以裝1.2PB,在軟件上,邏輯上,虛擬化成一個大的文件卷,吞吐率通過24個光驅并行讀寫,就是克服光盤慢的問題,就是用并行讀寫技術,用固態盤和硬盤做catch提高它的響應時間。

這項技術在日內瓦發明博覽會得到金獎,凱德國際光存儲定級會議邀請我們做報告。

在理論和功能上,我們提出了一個磁光電融合的技術,固態盤也有硬盤,但是很小的一部分量,大部分量是光盤,我們異構融合以后給它虛擬化了。

光盤本來是慢的,但是我們用了并行和catch兩種技術結合以后,使它看起來很快,但是價格又很便宜的大容量盤。

熱溫冷數據是自動分級的,熱數據放在固態盤里,溫數據放在硬盤里,冷數據放在光盤里。有6個轉盤,每個里面是12片,有一個機械手,用到哪里轉到哪里,然后機械手拿出來放在12個光驅當中。在保證數據可靠性這方面采取了很多新的措施,盤內部的校驗和盤間的校驗。成為單體容量最大,并發度最高的光盤庫,首個磁光電融合的光盤庫,在國際上產生了一些影響。

它的應用是很廣闊的,企事業單位,銀行都可以用到,最重要的應用就是數據中心。在武漢東部開發區政務數據中心把這個作為方案用作國家能源局100個綠色數據中心的試點。

現在國際上真正在運行的藍光冷數據是facebook部署在北卡的冷數據中心,這是實驗性的,有14架,全是藍光光盤,有十幾P的容量,他們用這個做測試,一旦測試完成了以后,就會在冷數據中心大量部署這個,這樣會大量節省能源,而且數據的保存時間非常長,50年以上,成本要低于現在的磁帶和硬盤的方案,這個方案是還沒有大量采用,國際上也正在試用的情況下。

我們和國際的步伐差不多?,F在我們也在十幾個單位試用,成熟以后也會大推,我們硬件上比國際上還要高,軟件上比他們落后半年。希望通過這個,在我們國家數據中心以后得到應用。

未來光盤庫要研究解決數據可用性的技術,這是很重要的問題。還有一個問題,把一個數據保存50年100年,除了物理上保存以外,還有協議上的一致性的問題,這是什么問題呢?埃及的象形文字保存的都很好,所有的信息都保存下來了,兩河流域古巴比倫楔形文字也保留下來了,保存的很好,但是誰也不認識它,就是說協議丟失了,這個問題在我們計算機上也一樣存在。

中國是唯一的一個,幾千年來我們文字沒有什么太大的文化,我們現在還認識古代的文字。馬王堆出土的老子道德經現在還可以認出來,“道可道也,非恒道也。”為什么和我們現在“道可道非常道”不一樣,專家研究,漢代以后有一個皇帝叫劉恒,皇帝的名字不能用,所以后來避免說恒,就說常了。

計算機領域也是這樣的,光盤保存了50年100年,格式變了,操作系統不知道到哪里去了,很多運行環境也不在了,國際上有很多人,包括谷歌有很多人研究這個問題,怎么把這些協議,把這些東西定義好,以后我讀它,我就知道它是在什么樣的環境下,把這些信息保存下來,這樣才不至于丟失很關鍵的信息,就不至于50年以后這些程序都在,但是不知道是什么東西了,這個問題是非常嚴重的。

最后講一下藍光的光盤進展,光存儲唯一的缺點就是容量低。日本是光存儲歷史很久的國家,所以沿著藍光路線多層走,藍光路線今年200G,明年是300G,后年是500G,再往后就是800G。但是走到800G的時候,就很難讀了,所以他們就很難走下去。所以他們想了一個辦法,紅光伺候,藍光讀寫,但是這個走不遠。

介紹一個最新的進展。2014年,諾貝爾化學獎獲得者第一次突破了光學的衍射極限,跟波長有關,波長越小,光點越小。光學顯微鏡是看不到非常小的,納米級的現象是看不到的,用納米級的電子顯微鏡可以看到。最近有一個超分辨技術,用兩束光,一束光把它開開,另一束光,把它滅掉,中間剩了一點點,就留下來了。過去是三四百個納米,現在變成了10個納米,這樣就可以用這個原理做顯微鏡,可以看到很微觀的現象。這個成果就得到了2014年的諾貝爾獎,這是很好的突破,光學的衍射極限被突破了,搞存儲的人就想把它用到光存儲上。

也就是說,從300納米縮到10個納米,密度可以提高2個數量級,最早做這個事情的是一個澳大利亞華人院士,現在實驗室里可以讀寫,現在70納米的已經完全可以正常讀寫了。這個成果一上去,光盤的容量,至少可以一個T或做到10個T一片盤是沒有問題的,理論上可以做的很高,因為物理上已經這么小了,容量一上來,馬上把磁帶遠遠拉在后面,而且加上它非??煽?,非常便宜的特性,所以我們估計,將來作為冷數據存儲,加上一萬片的光盤技術,純十幾個PB上百個PB在一個柜子里,就非常的廉價,非常節能,這是非常好的技術。

云計算中心的冷存儲是一個日益重要的問題,80%都是冷數據,光存儲是冷數據存儲未來的方向,光存儲的重大突破就是剛才說的超分辨,就是光學衍射極限的突破會帶來一個新的產業,就是數據中心光存儲產業將替代磁帶庫,超大容量光盤庫已經成熟了,進入實用階段。

我們要抓住這個機遇,就可以站在世界前面去發展自主的存儲產業了,謝謝!

 (根據現場速記整理,未經本人審定)
 

未經允許不得轉載:存儲在線-存儲專業媒體 » 謝長生:云計算中心的冷數據存儲
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走