數據存儲產業服務平臺

IBM 沃森為存儲系統開發人員帶來的啟發

前一段時間,IBM 沃森參加了CBS的益智節目–《危險邊緣》(Jeopardy),這是他在全國觀眾面前首次亮相。確切地說,站在中央舞臺選手答題臺后面的IBM沃森實際上是不斷閃爍的虛擬頭像。盡管如此,擺在沃森面前的答題按鈕卻是如假包換的,在《危險邊緣》的快速問答環節,沃森必須按動按鈕才能答題。這個按鈕是靠一套專門設計的應用程序來激活,該程序是在沃森的后臺服務器集群中運行,并輔以IBM Scale-Out NAS (SONAS)存儲系統。

在我看來,沃森在節目開始的前15分鐘確實表現驚人,他以閃電般地速度給出答案并選擇下一個問題類別,真令人目不暇接。而與之對陣的真人選手Brad Rutter 和Ken Jennings 則只能默默站在一旁,眼睜睜地看著沃森一次又一次得分。然而,當節目接近尾聲時,沃森似乎變得有些遲鈍,它竟然給出了和其中一位選手一模一樣的錯誤答案。在第二階段的15分鐘競賽中,Brad 奮起直追,Ken也擺脫了困境。哈,難道是沃森不想再讓創造他的人類蒙羞出丑了?

沃森的想法我們可能永遠都無從知曉,那么我們就著重探討一下已知的情況吧。從存儲的角度來看,沃森能夠依靠海量的數據及其運算能力在三秒內從一系列有可能勝出的答案中計算出“正確”答案的概率,關于這一點,我們已經討論得很充分。鑒于沃森針對大型數據排列組合的實時解析能力,IBM已計劃將沃森的基礎技術拓展到的大型數據分析領域。

這當然很好。但是,沃森的開發工作既令開發人員倍感振奮,同時也是IBM所面對的巨大挑戰,我覺得IBM在應對這一挑戰的過程中所取得的成果才是最值得關注的。從Tony Pearson的博客中可以了解到,沃森的數據存儲系統是以經過改良的IBM SONAS集群為基礎的,其原始容量總計21.6TB。但Pearson同時也透露了另一條重要消息,在我看來這是相當驚人的數據點:“當沃森啟動時,載入的RAM總計15TB,隨后,深度問答(DeepQA)處理過程就可以依靠內存全部完成。根據IBM研究分析,生成備選答案和評估相關依據時,所用數據(經過分析和索引的文本、知識庫等等)的實際大小還不到1TB。”

按Pearson所言,沃森在選出正確答案的過程中實際使用的數據集只需1TB的硬盤即可容納。處理大數據所需的容量就只有這么多?

在我看來,大數據存儲曾經是一道難解的謎題,但沃森的誕生則雄辯有力地解答了這個問題。確實,我曾經在文章中論及的新型業務分析系統充斥著來自多種來源的海量數據,大數據也確實為存儲供應商帶來巨大的機遇。而沃森卻在此時此刻橫空出世,并且大聲宣告:“伙計們,一切都過去了,我只需要1TB!”

沃森知道,在既定時刻,他所處理的數據中只有極小的一部分可以用于解決目標問題。在實驗室中完成若干項《危險邊緣》模擬游戲之后,沃森及其開發者認識到,他們必須開發一種極其精確、緊湊的數據集,以適應沃森的內存要求。事實上,沃森的內存可以輕而易舉地處理多個拷貝和版本的數據集。

我認為,無論對于存儲技術專業人士還是存儲系統供應商,沃森所揭示的不僅僅是數據提取和歸檔階段的海量存儲需求,而且也表明了關聯引擎的開發需求。沃森對存儲系統開發人員提出了這樣一個問題:你能否僅僅將相關數據存入系統?沒錯,存儲系統的高速緩存確實是一種關聯引擎,不過與沃森的能力相比,它最多也只能算是一種簡單的原始引擎。

未經允許不得轉載:存儲在線-存儲專業媒體 » IBM 沃森為存儲系統開發人員帶來的啟發
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走