數據存儲產業服務平臺

大數據背后的偶然與必然

說到大數據,是一個現在經常被提到的流行詞匯,它包含了很多行業的很多領域。在業務分析中,大數據通常意味著使用從客戶中獲得的信息,銷售預測、供應商和很多別的投入的信息,對業務做出最優決策,既包括短期的也包括長期的。大宗商品的交易員可能會用完全不同的方式使用大數據,也許他們會從氣候數據中尋求分析,這需要查看衛星和相關文本信息的其它圖像數據,來決定哪種交易適合長期或者短期。這些事例需要一套完全不同的分析工具,十分有效,且使用完全不同的計算類型和存儲環境,作為將處理數據將它變成信息的算法是非常不同的。

最近,我和Jeff Layton在晚餐的時候會面,討論了一些來自圖表分析的不同類型的算法,到MapReduce,到圖像變化監測,和其它的,以及一些框架,例如 NOSQL和有效運行這些算法的系統架構。當然,有來自很多供應商和即將成為供應商的專業設備。所以大數據對我來說就是將數據變成信息的過程,然后再變成知識。

這不是一個新現象。這不是我的名言。大約400年前,Francis Bacon先生就說過“知識就是力量。”當我們從數據中提取越來越多的信息和知識時,我和Jeff相信系統架構將會有很大的變化。沒有提取和分開檔案的信息,你將不會有靜態檔案。

我和Jeff討論了如何解決這個問題,什么類型的數據很重要以及如何移動到新計算時代。晚餐期間,我們通過兩種不同的方向,自上而下和自下而上,想到了解決大數據的方法。我和Jeff討論了寫數據本身和采取哪種提取方式取決于數據類型,以及光譜的哪一端,哪種硬件需要用來分析數據。當然,我們晚餐中間討論了操作系統、文件系統和其它的大數據架構所需要的系統軟件。得到編輯的批準,我和Jeff準備開展“Jeff 和Henry的大數據探險。”

我將會開始討論大數據算法所需要的硬件和大數據架構的問題。例如:

• 未來需要哪種架構解決MapReduce難題,未來的圖表問題或者圖像改變監測問題?

• 你是否需要SSD,SAS驅動或者企業SATA驅動?

• 需要哪種類型的存儲控制器?

• 關鍵數據歸檔問題是什么?

• 在將來,需要哪種接口——SAS、Fibre Channel Ethernet 或者其它的?

• 計劃的CPU會滿足需求嗎,或者需要GPGPU、FPGAs 或者一些不太顯眼的東西?

• 內存要求呢?未來是否DDR-3/4/5內存計劃能夠滿足需求?

• 你需要存儲分層和更大的內存?例如通過擴展CPU渠道,如SGI Ultraviolet一連接機器,或者專業的內存系統和處理器,例如Cray uRIKA?

• CPU建設是否需要緩存一致性檢查,緩存一致性帶寬對于你需要的數據類型分析有用嗎?

• 操作系統高于設備尋址底層硬件的任務嗎?

• 語言、編譯器、調試器和需要運行系統硬件的整個生態系統如何?

• 不要忘記數據的安全性,因為現在的數據已經成為信息和新建的知識,如何從你的競爭對手、敵人和不應該訪問的雇員中保存信息?

也許你想讓一些用戶看一些東西,別的用戶只能看匿名數據。醫院病人的數據就是一個主要的例子;你除了醫生不讓別人看你的實際病歷,但是研究團隊可能 需要查看病情、治療選擇和結果。安全將會是巨大的問題,如信息的創建和保存在一個獨立的位置。不論它是個人的私有數據還是公司秘密,對黑客來說都是一個誘惑。不是所有人都能夠查看所有事情,每件事情都應該被追蹤,例如審查跟蹤。

這里的問題包括:

• 需要運行在這些系統之上的應用程序怎么樣呢?

• 某些查詢會比其它的更優先嗎?

• 應用程序是如何寫數據的,以方便讀取處理?

• 應用程序需要多少線程,需要一個并行編程模型嗎?如果是,編程模型是什么樣的呢,或者需要一個SMP模型嗎?將會需要使用哪種編程模型?

程序上的應用程序可以獲得任何捷徑嗎?90%的答案是獲得50%的計算處理。這90%的答案適合在框架時期給出嗎?或者你在做著生與死的抉擇的時候,在哪種情況下90%的答案是不夠好的。

倒是幸虧,服務員上菜很慢而且飯菜可口,不然我和Jeff不會有足夠的時間討論這些問題。

當然,我們沒有得出任何結論。自從我和Jeff的晚餐會議之后,我們在接下來的幾天仔細討論,并且決定將“大數據”作為我們第二年度聯合寫作項目的主題。

我們如何處理大數據

未來幾個月,我會逐步建立堆棧和忙于大數據問題,將會起始于硬件和堆棧的向上移動。因為我說過很多次,細節很重要(至少需要一些時間)。Jeff會從另一端開始,致力于堆棧的中間部分。我們會在操作系統或者編譯和函數庫中的某個地方接合。

你可能會問為什么存儲站點都在討論編譯器、調試器和類似的東西,為什么我要閱讀這些相關的?好問題。答案是,我們將會看到我們的世界正從面向數據處 理到面向信息的處理的轉變。一切都將會改變,我們不希望我們的讀者運用恐龍式的舊方法。我們相信這一轉變,是如何考慮主要變化開始發生的理解關鍵。存儲只 是一部分,若想成功,你不只需要了解存儲,還有新的操作環境及其需求。

這并不是說,我們相信會成為所有羅列內容的專家,因為沒有人是,甚至是嘗試成為的,但是那說明想要成功,你必須關注和了解方方面面,或者一些我也沒 想到的事情和一些獨有的東西,才適合未來的發展。大數據不只是云存儲。也不是關于歸檔、備份或者其它的戰術問題。它就是談論你所擁有的,提取能夠幫助你的 組織獲得成功的信息。

未經允許不得轉載:存儲在線-存儲專業媒體 » 大數據背后的偶然與必然
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走