如何逃出大數據困境？開源或是關鍵手段-存儲在線-存儲專業媒體

與此同時，繁瑣和昂貴的專有企業搜索產品不能處理現有的結構化數據存儲，并且不能以具有成本效益的方式來測量數據的規模和速度?，F在我們的目的是找到一種能夠對所有數據存儲進行搜索、發現和分析(SDA)的解決方案，很多公司試圖尋求開源方面的搜索功能應用程序，例如Apache Solr，以及大數據解決方案，例如Apache Hadoop，能夠為他們提供及時和具有成本效益的對不斷增長的數據總體的訪問能力和洞察力。

數據現狀

企業比以往任何時候都更加需要數據分析，但是數據的性質已經發生了變化。在不久前，企業需要分析的數據主要位于結構化數據庫和電子表格中。但是，在過去幾年中，一切都改變了。我們現在越來越多的(有時候是完全)依賴于數字形式的溝通。除了電子文件外，我們還有電子郵件、短信、博客及其評論、互動式網站 (包括wikis和其他協作網站以及資料庫等)。

再有就是機器生成的數據。你的汽車、手機、電度表都在產生數據，很快你的冰箱和咖啡機也會開始產生數據。事實上，人類和數字數據間的每個互動已經成熟到可以被捕捉和分析，這些信息并不整齊，但是這些信息是極其寶貴的。目前的企業搜索解決方案能夠提供對這種非結構化數據的洞察力，但是它們并不能很好的進行測量，并且它們并不提供對結構化數據和非結構化數據必須的分析。

執行和測量分析以及利用ad-hoc訪問能力的需要頗為引人注目。企業想要保持靈活性和競爭力，員工必須能夠執行更快和更強大的搜索以提供對數據更好的洞察力，使他們能夠發現之前隱藏的或者無法訪問的數據中的連接。

很多企業對于用戶和這片數據海洋(不只是原始數據)之間的相互作用變得越來越感興趣，因為他們相信對這些互動作用的分析能夠幫助他們更好地對客戶做出響應，更快地認識業務和客戶趨勢，并作出更好的業務決策。這通常也是在這個時候“大數據”一詞被大多數企業意識到。

在運營方面，企業需要確保他們能夠成功地駕馭日益復雜的法律、法規和合規環境。這需要企業識別、存儲、搜索和生成相關文件的能力。如果沒有能夠經濟有效地分析內容的搜索和發現工具，預算將不堪重負，業務也將逐漸缺乏對員工和客戶對企業的意義的真正性質失去洞察力。

實現SDA

那么，我們應該如何對結構化和非結構化數據存儲進行及時的訪問數據和執行分析呢?我們應該如何提問，以幫助我們找到所需要的具體信息，并從存在的隱藏的關系中獲得知識呢?

這需要從以搜索為基礎的應用程序和(通過類似商業智能的報告的)洞察力開始，基本上就是大數據和那些有疑問的實際用戶發起的點到點實時數據訪問的結合。關鍵字搜索加上發現功能(例如聚類、建議和分類)能夠幫助用戶更快地找到具體內容。

在試過可行的搜索技術中，首當其沖的就是對分析能力的需求，以滿足兩個領域。首先是客戶為導向的結合了原始內容以及所有用戶交互的學習方法(客戶就是上帝，對吧?)。這種良性循環也是目前領先的面向消費者的網站(例如亞馬遜、谷歌和Facebook)成功運作的原因，并且正在迅速成為一種必然，而不是那些希望在市場獲得競爭力的企業值得擁有的能力。

想象一家每天面對2000萬頁面瀏覽量的大型電子商務公司，雖然其核心產品的搜索索引只有500萬條目，當你將這500萬條目與頁面瀏覽量相乘時，你將面對一個非常驚人的大數據挑戰。但是因為其現有技術的限制，該公司只能保持三個月數據的有效性。該公司可以通過訪問其數據歸檔來對更長時間進行報告，但是對于實時搜索和分析，該公司只能依賴于過去的三個月中的數據。

為了讓其更多的較舊的數據更容易訪問和使用，該公司部署了一個大型Hadoop集群，位于其搜索引擎旁邊。隨后，他們使用 Mahout和Apache Pig等工具來快速和具有成本效益地分析幾個月的數據?，F在，該公司不僅能夠分析誰點擊了什么頁面，而且還能夠分析點擊頁面的相關性等。而且他們還具有強大的關鍵字搜索以及發現和導航能力(用于向上銷售和交叉銷售)。這些功能結合在一起為該公司提供了更深入的洞察力，并且他們還能夠將分析信息反饋回系統以進行不斷改善。

將這些分析信息反饋回業務同樣能夠讓企業通過利用關于員工是如何利用內容的信息來改善運營方式。企業現在能夠確定特定主題的專家，看看誰正在使用何種類型的內容來完成工作等。同樣地，這里也建立了一個良性循環，使用系統來提高系統的整體有效性，企業能夠更好地進行組織，因為他們不僅理解了他們的數據 (他們從傳統商業智能和搜索中獲取的數據)的價值，而且知道了其員工的價值。

開源的角色

現在的商業智能和企業搜索的專有應用程序都沒有“坐以待斃”。商業智能增加了更多類似搜索的功能，并且搜索肯定取代了很多商業智能功能。但是在幾年前，專有解決方案似乎是最安全的方法，而開源解決方案似乎更具風險。而現在，很多公司開始看到，因為開源項目獨立于企業財務決策，他們對于保護其長期投資更具后勁。此外，很多企業發現他們更容易獲得、培訓和留住開源人才，因為，他們可以深入代碼。

在商業硬件上運行的開源應用程序也是實現真正可擴展解決方案的最佳途徑之一。擴展專有解決方案總是會面對財務阻礙，并且隨著越來越多的數據需要匯入這些系統，這個問題變得更大了。開源進行擴展更具成本效益，因為你不需要相關的授權費用。當然，這并不是免費的午餐，但是開源每年都會降低成本，即時在某些情況下，前期成本似乎更高。

例如，考慮一下，一家金融服務公司面臨著擴展的嚴峻挑戰：在交易方面有巨大的交易數量，同時需要保存、訪問和搜索大規模非結構化數據(客戶端電子郵件、 M&A數據等)以滿足監管目的。很多企業可能坐在數據的金礦中而他們卻全然不知，因為他們根本就不具備回答各種問題來發現這種信息的能力。相反的，對他們而言，這些數據就像是一個黑洞：信息進入，但從來沒有出來過。

通過Hadoop集群來聚合信息，通過Lucene/Solr 來提出正確的問題，突然間，這些公司能夠產生大量聚合信息以加強貿易和市場分析，并且通過粒度搜索和發現來實現更好的業務分析和合規以及電子發現。開源解決方案使企業負擔得起這種系統，并且能從長遠角度來進行擴展。

深入而廣泛的靈活性

通過主要的“大數據”工具(包括用于搜索的Lucene/Solr、用于聚類大規模數據的Hadoop、Hive和HBase以及用于大規模分析和學習的Apache Mahout、Apache Pig等工具)，具有搜索功能的開源應用程序能夠幫助企業對信息獲得更深入的的洞察力，這主要通過為企業開發人員和他們服務的用戶提供具有檢索性的信息和可訪問的機器學習算法。這些工具不僅能夠允許我們都習慣使用的傳統關鍵字搜索，還為用戶提供了提出深刻和更困難問題的能力。

通過消除耗時又限制利益的設置數據剛性結構的過程，可以讓用戶提出他們需要提出的問題，基于目前的業務現狀，而不是基于業務分析師或者數據庫設計者幾個月或者幾年前的意見。這些應用程序還能夠消除了數月的延誤時間，以及到IT來重組數據庫或者創建新的查詢的需要。此外，由于其擴展能力，這些應用程序還能夠保留這些信息以用于未來使用，當然在未來，我們毫無疑問會有不同的想法和處理技術，從而延續了這些系統的價值。

開源SDA解決方案提供了具有成本效益的對所有類型數據的搜索和分析，開源解決方案的崛起是不可避免的。這是一個生存問題，如果沒有開源解決方案，我們將被淹沒在數據海洋中。這也是一個成本問題，我們發現如果沒有開源解決方案，我們將很難擴展搜索和分析。這還是一個競爭力的問題，如果沒有開源解決方案，企業將無法與客戶進行互動，或者有效地發揮員工的價值。因此，你需要回答的問題是，SDA是否符合你的信息戰略?

未經允許不得轉載：存儲在線-存儲專業媒體 » 如何逃出大數據困境？開源或是關鍵手段

分享到

大數據存儲存儲管理數據管理

wangzhen

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走