Concurrent公司工程總監William Lazzaro

“Hadoop是我們用來解決大數據問題的‘鐵榔頭’,”Concurrent公司工程總監William Lazzaro表示,“它讓我們在很短時間內能夠處理大量數據。”

Concurrent公司的一個部門負責收集和存儲關于視頻的客戶統計數據,這也是Hadoop發揮作用的地方,Lazzaro表示:“我們現在有一個客戶一個月要生成和保存30億數據記錄,我們預計在接下來的三個月,這個數字將達到一個月100億數據記錄。”

過去,Concurrent公司面對的兩個主要局限是:傳統關系型數據庫無法處理非結構化數據(如視頻),并且需要處理和存儲的數據量成倍增長。“我的客戶想要保存數據四到五年,”Lazzaro說道,“當他們每天產生1PB數據時,這將是一個大數據問題。”

有了Hadoop,Concurrent公司工程師發現他們能夠滿足其客戶日益增長的需求,Lazzaro 表示,“在測試過程中,他們嘗試為該客戶每天處理20億條記錄,通過向節點加入另一臺服務器后,我們發現完全能夠滿足他們的需求,并且能夠迅速擴展。”

為了對比,該公司使用傳統數據庫進行了相同的測試,發現Hadoop的主要優勢之一在于它可以方便快捷地根據需要增加額外的硬件,而不需要額外的授權費用,因為它是開源產品。

生命科學和基因組公司NextBio公司是另一個Hadoop用戶,該公司主要負責涉及龐大的關于人類基因測序數據集的項目以及相關科研工作。

NextBio公司工程副總裁Satnam Alag

“我們引入各種基因組數據,然后使用Hadoop對數據進行處理,并與其他數據集進行比較,”NextBio公司工程副總裁Satnam Alag表示,“Hadoop讓我們可以根據客戶需要對大量公共數據進行分析,我們的客戶范圍包括制藥公司到學術研究人員。”NextBio使用的是來自 MapR的Hadoop產品。

一個典型的完整基因組序列可以包含120GB到150GB壓縮數據,需要0.5TB的存儲容量以進行處理。在過去,該公司需要花費三天來分析這些數據,但現在通過30到40臺運行Hadoop的機器,NextBio的工作人員只需要三到四個小時就可以完成工作。Alag表示:“對于任何需要利用這些數據的應用程序,Hadoop都帶來了很大的變化。”

Hadoop的另一大優勢是它可以簡單地通過增加更多節點來按需擴展系統。他表示:“如果沒有Hadoop,擴展將是極具挑戰性和昂貴的工作。”這種所謂的橫向擴展(增加更多商品硬件節點到Hadoop集群)是非常具有成本效益的系統方式。Hadoop框架“會自動處理集群中失效的節點”。

這極大地改變了該公司擴大其計算能力以滿足其需求的方式。他表示:“我們不想在基礎設施上花費太多錢,我們并沒有那么多資金。”

新類型應用層出不窮

Hadoop的一個巨大優勢在于它能夠對大量數據集進行分析并迅速發現趨勢。對于一家大型零售商,這可能意味著分析Facebook或者 Twitter用戶數據以了解上一季流行什么顏色的圍巾,將分析結果與現在的熱門顏色流行趨勢相比較就能夠幫助確定本季度銷售什么顏色的圍巾。

“它讓你能夠從過去的數據中尋求新的銷售機會,”Lazzaro說道。Concurrent公司就曾為一家汽車經銷商分析商業廣告數據,“我們可以從數據看出哪些人查看了商業廣告,然后就可以確定消費群。”

傳統數據庫能夠滿足很多數據分類和分析需要,但對于超大規模數據集,Hadoop能夠更有效地找出信息,Lazzaro表示:“Hadoop就是為了這個目的而設計的。”

對于eBay來說,eBay的工程師“喜歡和非結構化數據打交道,以及迅速為eBay建立新產品,”Williams表示,eBay工程師可以訪問該公司的3億份清單、歷史資料和大量相關信息,“這讓我們能夠更好地了解客戶,并建立他們想要的用戶體驗。”這并不是結構化數據和非結構化數據之爭,而是,“我們的工程師現在可以以前所未有的方式與數據打交道”。

Williams表示,在過去一年中,eBay使用Hadoop完成了一些非常了不起的事情,包括對商品陳列、用戶體驗和用戶使用網站的方式的改善等。

例如,eBay工作人員可以看到客戶什么時候開始搜索萬圣節和圣誕節產品。“我還能告訴你人們在尋找的產品,而在五年以前,我們根本不理解這些數據。”

制定策略須謹慎

雖然Hadoop非常強大,但是也有一些注意事項。首先,“不要完全僅將目光放在一個供應商上”,因為這仍然是一個十分“動蕩”的市場,Forrester公司的Kobielus表示,“供應商們都正在快速發展,另一方面來看,這確實創建了一個充滿活力的生態系統。”

Gartner研究所分析師Marcus Collins表示:“這主要取決于企業,獲取必要的專業知識來最大化Hadoop的優勢。運用Hadoop需要一定水平的分析能力,而現在很多企業還不具備這樣的能力。你需要對員工進行培訓,并對分析能力進行投資,這將讓你充分利用這項技術的優勢。”

eBay交易市場搜索平臺和體驗部門副總裁Hugh Williams

另一個重要考慮因素:大多數企業將需要聘請Hadoop專家,而這種人才目前供不應求,或者需要培養內部專家。eBay的Williams表示: “我們安排了很多培訓,讓我們的工程師學習如何使用Hadoop和編寫代碼。你還需要對開發人員和項目經理進行培訓,讓他們也成為熟練的使用者。不要低估了這一點的作用。”

如果將開源系統應用于關鍵任務應用程序,還要準備組織學習曲線。最好讓你的管理層了解開源的優勢。

Collins的另一個秘訣就是“密切參與”項目以確保按計劃進行,“不要將你的問題歸咎于Hadoop供應商,”他表示,“畢竟是你在運行Hadoop。”

此外,Kobielus解釋說,Hadoop的最佳做法仍然在不斷發展中,所以最好想辦法從Hadoop獲得一些短期優勢,而不要好高騖遠。隨著你的專業知識的增加,你會發現更多Hadoop的優勢。然而,早期使用者為建立系統和擴展集群而采用的方法范圍完全取決于董事會。

Hadoop只會錦上添花 不會喧賓奪主

大多數客戶使用Hadoop添加到其他類型的軟件上,而不是取代其他軟件。例如,eBay仍然在使用關系型數據庫,并需要處理大量自定義(數據庫) 工作,Williams說道:“在eBay,我們發現了使用多種技術來處理數據的價值。Hadoop對于某些目的而言,是一個非常好的選擇,而對于其他目的,其他技術更加適用。”

例如,當涉及交易時,他表示,“當然應該使用關系型數據庫系統。我們的總體想法是靈活的選擇適合的技術,并不存在一個‘包治百病’的技術。”

Concurrent公司同樣是如此。Hadoop并沒有取代該公司的傳統關系型數據庫,包括MySQL、PostgreSQL和Oracle。 “這是一個綜合解決方案,”Lazzaro表示,“我們使用Hadoop來完成繁重的工作,例如大規模數據處理。然后我們會使用Hadoop內的 Map/Reduce來創建匯總數據,這種數據能夠通過傳統RDBMS來查看。”

關系型數據庫的發展趨勢是,當系統變得太大時,例如2.5億條記錄一天,數據庫就無法響應數據查詢。然而,他表示,“面對這么龐大的數據,Hadoop仍然不費吹灰之力。Hadoop可以存儲50億條數據,通過Map/Reduce我們可以創建數據匯總,并將其插入到標準RDBMS以提供快速查看。”

在一般情況下,Williams表示,“我并不會過多考慮Hadoop的局限性,而是會考慮機會。你可以通過開源社區迅速找出解決任何問題的解決方案。雖然有些人對于Hadoop有著這樣那樣的抱怨,但它畢竟屬于新技術,就好像早在1993年或1994年的Linux一樣。”

“我們確實看到獨特的技術挑戰,”Williams表示,包括架構數據中心、設計支持Hadoop的網絡和選擇正確的硬件。

總體而言,Hadoop一直是eBay的良好戰略,Williams說道:“對于我們而言,Hadoop真的幫了大忙,我們的工程師都對它贊不絕口,它幫助我們成為真正的數據驅動型企業。”

相關鏈接

企業級Hadoop供應商 vendors

免費開源應用程序Apache Hadoop可供企業IT部門下載、使用和根據其需要進行改變。

但對于很多企業用戶而言,Hadoop對支持和技術技能的需要在很大程度上掩蓋了這個免費DIY應用程序的光芒。

而受支持的企業版本Hadoop則是更好更實際的選擇。

以下是一些Hadoop主要供應商,這些供應商可以幫助你的公司開始享受Hadoop的優勢,有些供應商還提供內部部署軟件包,有些供應商還銷售云端Hadoop,還有剛剛出現的Hadoop數據庫設備,包括最近宣布合作的Oracle和Cloudera。

Amazon提供的Amazon Elastic MapReduce,運行在Amazon的彈性云以及Simple Storage服務中的托管Hadoop框架

Cloudera公司的Enterprise訂閱服務

使用Hadoop的Datameer Analytics Solution

DataStax Enterprise Hadoop軟件

EMC分公司Greenplum公司提供的Greenplum HD Enterprise-Ready Apache Hadoop

Hortonworks數據平臺

BigInsights,基于Hadoop的來自IBM的非結構化數據云服務

Karmasphere Analyst, 使用Hadoop幫助生成數據的工具包

MapR提供的企業級Hadoop軟件M5版本

以上只是列出了一些提供企業級Hadoop產品和服務的供應商,隨著Hadoop在數據市場上關注度的提升,供應商的數量還將增加。

技術小貼士

eBay的Williams為大家提供了以下秘訣:

通過學習Hadoop的組織結構來學習如何有效管理Hadoop。 “如果你的企業有很多人在使用Hadoop集群,他們可能會嘗試一次性做很多相同的事情,”Williams表示,“這意味著他們可能會產生相同的中間數據,這是一種浪費。”

他建議,一天運行一次通用數據查詢,并將結果保存在一個地方,讓需要的人可以使用,這樣做可以節省大量處理時間和相關資源,“仔細想想哪些數據集對于你的用戶是很有用的,然后創建這些數據集。”

清理你的Hadoop集群是關鍵的維護工作。 “這真的非常重要,”Williams表示,“你可能需要運行大量Hadoop工作,創建大量數據,通常情況下,通過文件來處理工作的用戶會一走了之,這對于用戶很常見,如果你這樣做的話,你最終將會面對大量額外的Hadoop文件。”

“所以你需要制定一個策略以保持Hadoop集群的整潔,這樣就不會超出磁盤空間。讓用戶清理出他們不需要的東西。如果你有一個大型Hadoop集群,定期清理是非常重要的。”

未經允許不得轉載:存儲在線-存儲專業媒體 » Hadoop只會錦上添花 不會喧賓奪主
分享到

wangzhen

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走