 

當前位置：存儲在線-存儲專業媒體  技巧  正文

直面挑戰：大數據存儲服務選擇最佳做法

2012-05-03 分類：技巧

磁盤存儲就像是衣櫥，永遠不夠用，在大數據時代，這一點尤為突出。“大數據”意味著需要比傳統存儲平臺處理更多的數據。那么這對于CIO意味著什么呢?意味著他們將需要做出更多的努力，而可供參考的信息卻很少。

不過，在為大數據選擇存儲服務時也并不是完全無跡可尋。

何謂大數據

首先，我們需要清楚大數據與其他類型數據的區別以及與之相關的技術(主要是分析應用程序)。大數據本身意味著非常多需要使用標準存儲技術來處理的數據。大數據可能由TB級(或者甚至PB級)信息組成，既包括結構化數據(數據庫、日志、SQL等)以及非結構化數據(社交媒體帖子、傳感器、多媒體數據)。此外，大部分這些數據缺乏索引或者其他組織結構，可能由很多不同文件類型組成。

由于這些數據缺乏一致性，使標準處理和存儲技術無計可施，而且運營開銷以及龐大的數據量使我們難以使用傳統的服務器和SAN方法來有效地進行處理。換句話說，大數據需要不同的處理方法：自己的平臺，這也是Hadoop可以派上用場的地方。

Hadoop是一個開源分布式計算平臺，它提供了一種建立平臺的方法，這個平臺由標準化硬件(服務器和內部服務器存儲)組成，并形成集群能夠并行處理大數據請求。在存儲方面來看，這個開源項目的關鍵組成部分是Hadoop分布式文件系統(HDFS)，該系統具有跨集群中多個成員存儲非常大文件的能力。HDFS通過創建多個數據塊副本，然后將其分布在整個集群內的計算機節點，這提供了方便可靠極其快速的計算能力。

從目前來看，為大數據建立足夠大的存儲平臺最簡單的方法就是購買一套服務器，并為每臺服務器配備數TB級的驅動器，然后讓 Hadoop來完成余下的工作。對于一些規模較小的企業而言，可能只要這么簡單。然而，一旦考慮處理性能、算法復雜性和數據挖掘，這種方法可能不一定能夠保證成功。

你的存儲架構

這一切都歸結到所涉及的存儲結構和網絡性能。對于經常分析大數據的企業而言，可能需要一個單獨的基礎設施，因為隨著集群中計算節點的數量的增長，帶寬開銷也會增長。通常情況下，使用HDFS的多模計算集群在處理大數據時將會產生大量流量。這是因為Hadoop在集群的成員服務器間傳輸數據(以及計算資源)。

在大多數情況下，基于服務器的本地存儲并沒有高效率的優點，這也是為什么很多企業轉向使用高速光纖結構的SAN來最大限度地提高吞吐量。然而，SAN方法本身并不一定適合大數據部署。尤其是那些使用Hadoop的大數據部署，因為SAN承擔集中硬盤上數據的責任，這反過來意味著每個計算服務器將需要訪問相同的SAN來恢復正態分布的數據。

然而，當比較本地服務器存儲和基于SAN的存儲時，本地存儲在兩個方面占據優勢：成本和整體性能。簡而言之，沒有在每個計算成員放置RAID的原始磁盤在處理HDFS請求時將勝過SAN，然而，基于服務器的磁盤存在缺點，主要是在可擴展性方面。

問題是當服務器依賴于本地存儲時，你如何在必要的時候增加更多的容量。通常，有兩種方式來處理這種困境。第一種方法是增加具有更多本地存儲的額外的服務器。第二種方法是增加集群服務器的容量。這兩種方法都需要購買和配置硬件，這將導致停機時間，可能還需要重新設計架構。然而，無論使用哪種方法都要比向 SAN增加容量要便宜，可以說，這是一個顯著的成本優勢。

然而，當涉及到Hadoop時，還有其他存儲選擇。例如，一些領先的存儲廠商都在建立專門針對Hadoop和大數據分析的存儲設備。這些供應商包括EMC，目前提供Hadoop解決方案，例如Greenplum HD Data Computing Appliance。甲骨文正在考慮進一步深化Exadata系列設備，提供計算能力以及高速存儲。

最后一個存儲選擇是云形式的存儲，Cloudera、微軟、Amazon和很多其他供應商都在提供基于云的大數據解決方案，這些解決方案能夠提供處理能力、存儲和支持。

在選擇大數據存儲解決方案時需要考慮究竟需要多少空間，分析頻率如何以及需要處理什么類型的數據。這些因素，以及安全、預算和處理時間都是選擇大數據存儲解決方案時需要考慮的因素。

可能站在保險的角度來看，一個試點項目可能是一個不錯的開始，商品硬件也是大數據試點項目的低成本投資選擇。

未經允許不得轉載：存儲在線-存儲專業媒體 » 直面挑戰：大數據存儲服務選擇最佳做法

分享到

大數據存儲存儲服務存儲管理

wangzhen

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走