數據存儲產業服務平臺

重新定義存儲經濟學(第二部分)

2014年4月10日存儲在線編譯:這是關于存儲經濟學的系列文章中的第二篇文章。

自動分級技術給大數據出了個難題

在第一篇文章中,我們了解到自動分級技術可以如何為企業的經營節省開支?,F在,我們將要探討的是,雖然自動分級技術有很多的優勢,但是它也給大數據出了個難題。你的存儲是一個不斷變化的目標。如果才能既享受到自動分級技術帶來的優勢,又能夠滿足大數據的需求呢?

大數據一詞涵蓋了很多種毫不相干的信息。一方面,很多銀行會通過檢查數月來的交易模式以發現欺詐交易者,另一方面,很多零售商也在積極跟蹤和收集消費者的店里的行為信息,以研究消費者的購物模式。在第一個例子里,銀行信息是行為的一種長期性記錄,而在零售店的例子中,那些信息只在很短的時間里有用。然而,那些數據都可以被歸到大數據的范疇之內。

這就自然而然地引發了大數據面臨的困境,即大數據的存儲問題。你會將某個元素保留多長的時間?保存在哪里?等等等等。IT業界將大數據看作是一組數據流,那些數據流一直在更新和流動。我們面臨的一個難題是,我們必須高效地將數據流區分出來,然后決定針對不同的數據流采取不同的行動。我們顯然不能將一切信息都保留下來,而且肯定不能將所有的信息都保存在速度超快、價格也超高的閃存設備上。

區分數據流的目的是為了兼顧管理精度和管理效率,或者說在這兩者之間找到一個平衡點。我們可以為單一的目標設置政策,但在那種情況下,元數據管理的成本可能就會非常高。另一方面,LUN級別的區分可以建立起一種機制,從而一次性達成所有的目標。

首先要做的事情是為每一個數據流建立一個位置和保留政策。這將取決于那些數據被訪問的速度需要達到多快的程度,還有其他的一些因素。在上述零售店的例子中,數據一旦被創建出來,它的價值就在不斷流失,因為目標也許是實時創建個性化店內廣告以提升營業額。在那種情況下,數據會直接進入內存中(in-memory)數據庫。

其中一個難題是大數據通常都是分布在數量眾多的并聯服務器上。在并聯服務器網絡中,對不同的服務器實施不同的政策比在連網存儲中對合并數據實施不同的政策要難得多。

一旦經過分析處理,數據就會被傳輸到永久存儲中。由于內存內數據庫需要非常高的帶寬,因此它必須使用閃存或是快速固態硬盤。其中一個原因是,在數據恢復過程中,利用其它技術重新加載高達TB級的數據所需的時間可能會長達數個小時。但是,當數據流被丟棄或儲存到價格低廉、容量巨大的存儲系統中時,顯然是需要很多時間的。

數據分析還會從原始數據中創造出新的數據流,這個過程也應該是受控的。這些數據流的價值評估和保留政策通常會因為原始數據的不同而不同。

由于并行數據流的數量太大,因此整個控制機制必須是自動化的。這就是自動分級技術進入該領域的原因。這是一種在大型系統中有選擇性地自動移動數據的方法。

自動分級技術控制著所有的數據,對于正在使用的服務器來說它就是一個資源池。在那個資源池中,也許有純閃存陣列、固態硬盤和廉價硬盤,甚至還可以將磁帶庫也包含進去??梢酝ㄟ^存儲虛擬化來增加資源池的容量。數據移動則通過一系列政策來控制。

創建以及隨后執行這些政策是一項實質性努力,它需要使用LUN層級的政策而非對象層級的政策,但是在很多情況下,應該使用的卻是對象層級的政策。政策可以由超大規模數據環境下的分析應用來創建以減少人工干預和出錯的概率,或者由自動分級軟件自己去控制。

自動分級的結果應當是相對可預見的,而且在各個數據流之間實現平衡。從經濟的角度來說,這會對安裝成本造成一定的影響。最近云市場的服務價格發生了一些變化,那些變化表明使用消費級SATA硬盤的大容量存儲服務是非常經濟的。

硬盤價格很可能會呈現出分級的現象,每臺服務器中的PCIe 固態硬盤(每TB容量3000美元)將位于最高級,隨后是容量相對更大但速度相對較慢的多級單元SATA 固態硬盤(每TB容量500美元到1000美元),最后是容量巨大的SATA硬盤(每TB容量100美元)?,F在的自動分級技術或許很難將最頂級的本地固態硬盤融合到存儲資源池中,但是虛擬存儲局域網和軟件定義存儲已經開始解決那個問題了。

由于物聯網的發展,我們已經看到感應器大爆炸時代即將來臨的跡象,業內觀察員們預計,數據流將大幅增長。以自動分級和壓縮為關鍵功能的數據管理和存儲虛擬化對大數據的處理很重要。

在第三篇文章中,我們將探討用于儲存最熱數據的存儲設備價格的下降將如何改變存儲層級工藝。

未經允許不得轉載:存儲在線-存儲專業媒體 » 重新定義存儲經濟學(第二部分)
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走