數據存儲產業服務平臺

Cloudera正通過Oryx為Hadoop重建機器學習機制

Hadoop軟件供應商Cloudera去年收購了一家總部位于倫敦的新興企業Myrrix——但在此之后無論是買家還是賣家在機器學習技術方面都開始歸于沉寂。不過無論如何,Myrrix公司的技術方案加上其創始人Sean Owen可能已經足以值回票價。

Owen目前的正式頭銜為數據科學部門主管,目前他正專注投身于名為Oryx的開源機器學習項目當中。(Oryx意思是劍羚、屬于非洲羚羊的一類分 支,Cloudera在售的產品中則有一款名為Impala——即黑斑羚)。Oryx的開發意圖在于幫助Hadoop用戶構建機器學習模式并將其加以部 署,這樣我們就能夠以實時方式查詢并獲取其結果——例如將其作為垃圾郵件過濾器或者推薦引擎的組成部分。在理想狀態下,Oryx能夠在接納輸入數據流的同 時對自身進行更新。

Owen將此稱為Hadoop傳統探索性分析(即利用數據尋找可資利用的模式)與運營性分析在最佳有效點方面的區別。“一旦弄清了網站運作的既定模式,我可能會希望利用這部分資源實現其它訴求,”他解釋道。“……我們應該在Hadoop當中建立一系列規?;J?,同時也對這些模式進行規?;瘜嵤?。”

作為Hadoop當中實現機器學習模式創建的傳統途徑,Apache Mahout“已經走到了發展道路的盡頭,”Owen指出。它還停留在第一代MapReduce所采用的純批量處理時代,而且要求用戶承擔起大量工作以保 證工作系統能夠落實到位。“Myrrix(屬于Mahout的重新編寫成果)實現了我長久以來對Mahout的種種期望,”他表示,并補充稱如果 Mahout真的運作良好、那么Cloudera可能根本不會決定收購Myrrix。Oryx項目當中約有九成代碼取向Myrrix,當然其中也包含一部 分在被Cloudera收購后才添加進去的代碼。

開放而且簡便的推薦引擎

比起構建一套體積龐大的機器學習算法庫,Owen將精力主要放在了四大要素身上——回歸、分類、聚類與協同過濾(又名推薦)。Owen表示最后一項 也是目前人氣最高的設計特性,而且他也與Cloudera的多位客戶展開合作、希望利用Oryx實現推薦系統。事實上,約有80%的Oryx用戶都希望借 此建立自己的推薦引擎。

將Oryx作為創建推薦系統的標準化工具為該項目帶來了極高人氣。當然,在Netflix、Amazon以及幾乎其它任何一個知名網站上,推薦系統都屬于標準配置——不過目前標準類型的數量少得驚人,而開源工具的意義就在于彌合這種欠缺。

目前的狀況還稱不上是什么競賽,但確實已經有多方參與到標準推薦機制的開發工作中來。舉例來說,云計算新興企業Mortar Data目前正在尋求合作伙伴、希望通過十五家企業聯手(免費)在多位知名數據科學家的幫助下建立起定制化推薦引擎。該公司的這一項目于去年正式啟動,他 們計劃借此找到足以改進其開源推薦框架的最佳實踐方案。而Expect Labs等其它企業雖然沒有選擇開源道路,但也同樣在嘗試通過人工智能API實現自動推薦效果。

還只是個項目而非產品

Owen認為Cloudera的所有客戶(基本上都屬于Hadoop用戶)都希望能夠最終獲得運營性機器學習方案——而非僅僅滿足于推薦引擎——Oryx則很可能成為幫助他們實現愿望的關鍵性工具。不過他同時強調稱,“在某種程度上,Oryx仍然屬于實驗性項目。”

舉例來說,目前Owen正將大量時間投入到Apache Spark的代碼貢獻工作當中,因為他打算通過重新編寫Oryx使Spark成為一套足以取代MapReduce的首選處理框架。“從機器學習的角度來 看,Spark擁有大量極具吸引力的特性,”他表示。“……我更愿意把自己的主要精力放在這里。”

他的決定其實代表了很多技術人員的心聲。正如我們之前所說,Spark正在逐步成為下一代大數據應用程序當中的代表性方案,而包括Cloudera 以及Hortonworks在內的多家企業正積極將其打造為代表Hadoop未來的重要解決方案。Cloudera公司CEO Tom Reilly將聯同其它大數據企業CEO、數據科學家以及CIO共同參加今年三月的結構數據大會,探討Hadoop平臺的下一步發展方向以及Spark在 其中扮演的角色、外加足以轉變業務及社交模式的機器學習實際應用。

不過雖然作出這么多承諾,Owen卻并不認為Oryx能在短時間之內在Cloudera的Hadoop改造版或者相關產品當中發揮實際作用。“客戶 需要指導、服務以及培訓,而這些需求將以軟件形式予以交付,”他表示。不過就目前來看:“這些距離真正實現還有很長的路要走。”

“現在要讓龐大的Hadoop消費市場接受數據科學都還為時過早,”他解釋道,“更不用說運營性實時機器學習方案了。”

未經允許不得轉載:存儲在線-存儲專業媒體 » Cloudera正通過Oryx為Hadoop重建機器學習機制
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走