 

當前位置：存儲在線-存儲專業媒體  技巧  正文

大數據技術對于企業數據挖掘的未來意義

2012-09-12 分類：技巧

我們都聽說過如下的預測：到2020年，全球以電子形式存儲的數據量將達到35ZB，是2009年全球存儲量的40倍。而在2010年底，根據IDC的統計，全球數據量已經達到了120萬PB，或1.2ZB。如果將這些數據都刻錄在DVD上，那么光把這些DVD盤片堆疊起來就可以從地球壘到月球一個來回(單程約24萬英里)。

對于動不動就憂天的杞人來說，如此龐大的數字可能是不詳的，預示著世界末日的來臨。而對于樂觀主義者來說，這些數字卻是一座信息金礦，隨著技術的進步，其中所蘊含的財富會越來越容易被挖掘出來。

進入“大數據”時代，出現了不少新興的數據挖掘技術，使得對數據財富的儲存、處理和分析變得比以往任何時候都更便宜、更快速了。只要有了超級計算環境，那么大數據技術就能被眾多的企業所用，從而改變很多行業經營業務的的方式。

我們對大數據技術的定義是：利用一些非傳統的數據篩選工具(包括但不限于Hadoop)對大量的結構化和非結構化數據集合進行挖掘，以便提供有用的數據洞察。

大數據技術的概念和“云計算”一樣，也存在著很多的炒作和大量的不確定性。為此，我們咨詢了多位分析師和研究大數據的專家，讓他們解釋大數據技術是什么和不是什么，以及大數據技術對于數據挖掘的未來究竟意味著什么等諸多問題。

大數據技術的發展背景

對大企業而言，大數據的興起部分是因為計算能力可用更低的成本獲得，且各類系統如今已能夠執行多任務處理。其次，內存的成本也在直線下降，企業可以在內存中處理比以往更多的數據。還有就是把計算機聚合成服務器集群越來越簡單。IDC的數據庫管理分析師Carl Olofson認為，這三大因素的結合便催生了大數據。

“我們不但能夠把這些事情做好，而且能夠以更低廉的成本去做這些事情，”他說。“過去有些大型超級計算機就曾涉足過繁重的多處理系統，一起構建成緊密聚合的集群，但由于都是專門設計的硬件，所以其成本動輒數十萬甚至數百萬美元。而現在，我們利用普通的商品化硬件也能獲得同樣的計算能力。這便幫助我們能夠更快、更便宜地處理更多的數據。”

當然，并非所有擁有龐大數據倉庫的企業都可以說他們正在使用大數據技術。IDC認為，某項技術要想成為大數據技術，首先必須是成本可承受的，其次是必須滿足IBM所描述的三個“V”判據中的兩個：多樣性(variety)、體量(volume)和速度(velocity)。

多樣性是指，數據應包含結構化的和非結構化的數據。體量是指聚合在一起供分析的數據量必須是非常龐大的。而速度則是指數據處理的速度必須很快。Olofson說，大數據“并非總是說有數百個TB才算得上。根據實際使用情況，有時候數百個GB的數據也可稱為大數據，這主要要看它的第三個維度，也就是速度或者時間維度。假如我能在1秒之內分析處理300GB的數據，而通常情況下卻需要花費1個小時的話，那么這種巨大變化所帶來的結果就會增加極大的價值。所謂大數據技術，就是至少實現這三個判據中的兩個的可承受得起的一種應用。”

與開源之關系

“很多人都認為，Hadoop和大數據是同義詞。但這是個錯誤，”Olofson解釋說。例如Teradata、MySQL和一些“聰明的集群技術”的實施案例都沒有使用Hadoop，但也被認為是大數據的實施案例。

作為大數據的一種應用環境，Hadoop之所以能夠引起人們的注意，是因為它是基于MapReduce環境的，這是超算圈里很常用的一種簡化環境，主要是由谷歌所創建的一個項目。Hadoop是和各種Apache項目密切相關的混合實施環境，其中包含了在MapReduce環境下所創建的HBase數據庫。

軟件開發人員一般會用一切利用到Hadoop以及相似的高級技術的手段來響應——而這些技術很多都是在開源社區里開發的。“他們創建了一個令人眼花繚亂、變化多端的東西，即所謂的NoSQL數據庫，該數據庫的鍵值多數都已利用了各種技術在處理能力、多樣化，或者數據庫規模上做了優化的，”Olofson說。

開源技術一般是沒有商業支持的，“所以這些東西還必須讓其進化一段時間，逐漸剔除各種缺陷，而這一般需要數年的時間。這就是說，羽毛未豐的大數據技術目前還無法在普通市場上普及。”與此同時，IDC預計至少有三家商業廠商會在年底之前對Hadoop提供某種類型的支持服務。還有其他一些廠商，如Datameer等，也會提供帶有Hadoop組件的分析工具，允許企業開發他們自己的應用。例如Cloudera和Tableau等已經在其產品中用到了Hadoop。

升級關系型數據庫

行業觀察家們一般都贊成在升級關系數據庫管理系統(RDBMS)時也要考慮大數據技術。Olofson說，“大數據技術適用于速度更快、規模更大、成本更低廉的場合。”比如Teradata就把它的系統做得成本更低廉、具備可擴展性和集群環境。

然而還有些人則不這么認為。Gartner的數據管理分析師Marcus Collins說，“通常在使用RDBMS時，都要用到BI工具，但這種處理流程并非真的大數據。這種流程由來已久。”

那么，誰會真正用到大數據分析呢?

一年前，大數據技術的一些主要用戶是大型Web企業，例如Facebook和雅虎，它們需要分析點擊流數據。但是今天，“大數據技術已經超出了Web，是要是有大量數據需要處理的企業都有可能用到它?！崩玢y行、公用事業機構、情報部門等都在搭乘大數據這輛車。

實際上，一些大數據技術已經被一些擁有很前衛技術的企業在使用了，比如受社交媒體推動而需要創建相應Web服務的企業。它們對于大數據項目的貢獻非常重要。

而在其他垂直行業中，有些企業正在意識到，它們基于信息服務的價值定位要比它們先前想象的要大得多，所以大數據技術很快就吸引了這些企業的注意。再加上硬件和軟件成本的下降，這些企業發現它們已經處在了一場企業大轉型機遇的完美風暴中。

紐約城的TRA公司是專門幫助電視廣告主們評測其所投放的電視廣告的效果的，它會把某個家庭通過電視與DVR(數字錄像機)所接收到的廣告與其在零售商店的賬單相比對。該公司從有線電視公司的DVR以及一些日用品商店的會員卡計劃中搜集數據，來進行這種比對。TRA的大數據系統所處理的數據量代表著170萬個家庭以秒計的觀看習慣——如此龐大的任務量如果沒有大數據技術幾乎無法完成。該公司部署了Kognitia的WX2數據庫，該數據庫允許它快速地裝載、描述和分析數據，從DVR上收集細粒度的廣告觀看信息，fran后與銷售點的詳細數據進行比對，再生成定制報告。

“Kognitia有一個內存運行的解決方案，所以我們現有整個數據庫的一半都可以放在內存里，這就是說當我們的客戶需要運行一個查詢時，響應時間是秒級而非小時級或日級的，”TRA的CEO Mark Lieberman說。

該數據庫可以在普通硬件上運行，TRA自己的前端應用就是在.Net Visual Studio上構建的?！拔覀冞€會用到一點點MySQL，而用戶界面則是用DevExpress開發的，”Lieberman說。

在他看來，大數據技術可能會給全美700億美元的電視廣告市場帶來革命性的變化。傳統的廣告評測方法頂多只能在全國2萬個樣本家庭中安裝特制的機頂盒來分析抽樣數據。而今天，大數據技術則可以分析來自250萬臺DVR和機頂盒的實際數據。

Aberdeen集團的分析師Greg Belkin認為，TRA和其他一些公司所使用的大數據工具滿足了大數據的速度、體量和多樣性判據?！霸诹闶蹣I，大數據給人的印象十分深刻，因為這個行業有非常多的需要分析數據的地方，但是按照傳統手段那是無法想象的，”比如社交媒體網站、DVR設備和日用品商店的會員卡數據等?！斑@個行業的數據室如此的龐大和復雜，利用傳統的數據庫手段根本不可能進行分析，所以零售商們正在轉向大數據平臺?！?/p>

同樣的，大數據技術也給弗羅里達圣彼得斯堡的Catalina市場營銷公司帶來了革命性的變化。這家公司所擁有的會員客戶數據庫十分龐大，規模有2.5PB，其中包括了1.9億家美國日用品商店多年來的歷史銷售數據。它的最大的一個數據庫就有令人難以置信的4.25億行數據，公司每天需要在這個數據庫中管理大約6.25億行數據。

通過分析這些數據，Catalina可幫助一些主要的消費品制造商和大型連鎖超市預測消費者可能會購買什么商品，以及誰會對新的商品感興趣等。

“我們是希望把技術帶給數據，而不是把數據帶給技術，”Catalina的執行副總裁兼CIO Eric Williams說?！耙恍┈F有的技術就可以讓比如SAS公司把它們的分析技術用于數據庫。這就極大地改變了它們的整個業務。我們先前也在做這些事情，但是由于技術上的嚴重限制，使我們無法實現我們想要實現的目標。我們只好用自己研發的一些工具，而這些工具能夠實現的東西也是非常有限的。而大數據技術的出現則徹底改變了我們的整個企業?！?/p>

除了在其專有的系統中用到了一些開源軟件以外，Catalina還在Netezza數據倉庫設備平臺上使用了SAS的分析工具。

大數據正在從根本上改變著美國銀行業做業務的方式。美國銀行負責大數據與分析的前執行董事Abhishek Mehta在2010年10月的Hadoop World大會上說，“我覺得今天的Hadoop很像20年前的Linux。我們所有人都看到了Linux在企業軟件市場上的成功。Hadoop也將會取得同樣的成功。它的成功只是個時間問題而已?！?/p>

在分析點擊流數據和交易數據之外，Hadoop還可以讓美國銀行快速地解決各種業務問題?！白鳛殂y行來說，我能想到的就是如何消除客戶的欺詐行為，”Mehta說?！艾F在，我可以建立一個模型，為每個客戶回溯過去5年間的每一次欺詐事件。而在此之前，我們只能采取抽樣的辦法，建立一個模型，當發現有某個特例不適合這種模型時，還需要重新建模。這樣的日子終于結束了?！?/p>

公用事業行業也在剛剛開始了解到大數據所帶來的應用及其價值。美國中西部的一家電力公司利用Hadoop分析來自智能電表的數據，這些智能電表可以自動完成計費功能，但是該公司還收集輸電線路上任意的電流波動信息?！叭绻占竭@些信息并且能夠描繪出電流變化圖，那么你就可以在某個地方的變壓器可能出現故障之前找到它，”Olofson說?！盎蛘弋敯l生停電事故時，會引起電流的波動，公司就可以探測到波動之處，在用戶打電話求助之前就采取行動?！?/p>

Olofson預測說，在將來的某個時候，電力公司就能利用大數據技術來改善為客戶所提供的服務，并通過電網監控、問題檢測和對電網進行微調等降低運營成本——但是這可能需要對某些正在老化的基礎設施進行重大升級才行。

一些品牌營銷公司也在利用Hadoop在社交媒體上實驗所謂的“情緒分析”。這些服務提供商利用Hadoop，仔細審查客戶在Twitter上的行為，看看他們對于某個特定產品究竟在說些什么和想些什么。

謹慎行事

大數據技術正在迅速發展。正在使用大數據技術的一些企業自己就擁有非常精通技術的IT專業人員，可以很好地適應大數據技術的進步以及企業的需求。

“假如企業尚未具備部署大數據的條件，也可考慮選擇一家服務提供商——可能是一家云服務商，或者可以等待大數據技術成熟到了某個時點，有了大量成熟的軟件產品和有支持的服務時再采用，”Olofson說。

毫無疑問，數據挖掘領域已經發生了徹底的變化。但是分析師們認為，大數據技術不會完全取代今天的數據倉庫和數據挖掘工具。

“現有的數據挖掘實際上因為并沒有非常大的數據，所以需要構建相對復雜的分析模型，”Gartner的Collins說?！岸F在，大數據為企業提供了非常巨量的數據，這就意味著企業不再需要構建復雜的分析模型了。因此，數據挖掘的分析方式將會發生重大變化?！?/p>

Olofson說，“我得觀點是，大數據實際上會擴展數據倉庫的市場容量。企業會使用諸如MapReduce的技術，無論是Hadoop還是其他一些商業擴展產品，生成一些很有意思的商業智能數據，而這些數據是之前根本無法獲得的。然后，為了重復使用這些數據，跟蹤歷史數據，企業將會把這些數據放入數據倉庫，這實際上就是在擴展其數據倉庫的使用?！?/p>

大數據的規模代表著另一個挑戰，Collins說，“其實目前尚未有部署和使用大數據技術的成熟的體系架構模式，所以我們必須邊干邊學習?！?/p>

不過Collins認為，大數據技術本身的一些風險正在消除，因為已經有不少預包裝的工具可供選擇，但是該項技術仍然非常像一個編程接口——這對商業智能來說可以說是一種倒退。舉例來說，“Hadoop就是一個技術性相當強的系統，不過在商業智能的推動下，已經逐漸進入企業和桌面，有著非常有好的用戶界面。雖然使用Hadoop會在普及上后退一步買單時一些新興的廠商將會幫助我們把它推向需要它的用戶社區?！?/p>

“大數據技術還需要出現一些質的飛躍，我們必須把這些工具給到業務單位的用戶手中，但目前還做不到這一點，”Collins補充道。

關于大數據技術的三大誤區

業界對于大數據是什么和它能夠做什么還存在著非常多的混淆。以下就是有關大數據的三大常見的誤區：

1、關系數據庫不可能擴展到非常龐大的體量，因此它也不需要考慮大數據技術。(這不是真的)

2、Hadoop或者其擴展，如任何MapReduce環境是大數據的最佳之選，而不必去考慮實際的工作負載或者使用環境。(這也不是真的)

3、關系型數據庫管理系統的時代已經結束。真正關系的開發只能在大數據的部署中獲得。

未經允許不得轉載：存儲在線-存儲專業媒體 » 大數據技術對于企業數據挖掘的未來意義

分享到

Hadoop 大數據存儲管理

dostor

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走