數據存儲產業服務平臺

“極限”應用程序促進并行文件系統推廣

隨著大數據的到來和云規模的數據提供,公司用戶們正積極部署前沿服務。“極限”應用程序,比如大規模語音和圖像處理或復雜的金融分析模型,會將存儲系統推到它們的極限。一些解決方案的例子包括大規模圖片識別應用程序和基于高速決策的金融風險管理。

這些突破性的解決方案,由許多不同的活動組成,但是都有類似的數據存儲挑戰,它們帶來了新的潛在收入流。

每天在Taneja Group這里,我們看到越來越多的主流企業在探索類似的“極限服務”機會。不過,當企業IT數據中心開始被要求承載并提供這些新服務的時候,傳統的集群式甚至向外擴展文件系統–大部分企業數據中心(或云提供商)大量采用的–開始明顯無法滿足性能要求。

現在市場上已經有優秀的企業存儲解決方案來針對那些需要很高的裸吞吐率、高容量、并行訪問、低延遲性或高可用性的應用程序–可能甚至還能同時滿足其中兩到三個要求。但是當一個“極限”應用程序需要在同一時間內滿足所有這些要求的時候,只有并行文件系統形式的超算類型存儲才能提供一個可行的解決方案。

問題是大部分商業企業無法承受或這種昂貴的方案或不能冒險將業務基于這種昂貴的研究項目。

好消息是一些存儲廠商已經在工業化以前的超算存儲技術,將大規模并行文件系統轉變成在商業上可行的解決方案。這給革命性的服務創建打開了大門,使主流的企業數據中心可以支持自己的單位探索新的極限應用程序。

企業數據中心的高性能計算

每天各個機構都在創建越來越多的數據,這種數據增長給已經苦于現有負荷的存儲基礎設施帶來了挑戰。除此之外,我們還開始看到許多主流企業推出新的重負荷應用程序以便挖掘新數據的價值,這給存儲系統帶來了新形式的“壓力”。在生產環境下,這些極限應用程序可能要求存儲系統像高性能計算(HPC)研究項目那樣運行而不是像傳統商業操作或用戶生產性解決方案那樣運行。

這些新應用程序包括“大數據”分析、傳感器和信號處理、機器學習、基因、社交媒體趨勢和行為建模。其中許多應用程序原來是在超算環境中開發的,現在正在被嘗試應用于更加主流的商業解決方案中。

我們都聽過大數據分析和向外擴展地圖減少類型的數據計算,它們可以在“極其并行”的方式下處理,不過現在新興的極限應用程序還要求高吞吐率共享數據訪問。這里面的例子包括一些領域(比如圖像處理、視頻轉碼和金融風險分析)內極其有趣的商業機會。

在“大星球”上找到“小丑魚”

一個很好的極限應用程序例子就是大規模圖像模式識別。想象一家如果你知道客戶在哪里,他們生活的建筑類型,他們與其他人的地理聯系以及他們使用的能源情況,這里面的商業機會會有多大?我們聽過的一些基于圖像的地理應用程序包括優先推銷綠色能源解決方案、改進交通規劃、路線優化以及零售/批發細分。

例如,現在詳細的“頭頂”圖片(比如你在谷歌地圖上看到的衛星圖片)可以在商業上分析確定建筑物并估計它們的形狀、位置、停車場情況、景觀、屋頂建筑以及建筑細節。結合來自公共設施、評估記錄、入住率、建筑許可和稅費的公開可用信息,然后再解決電話號碼、IP地址、郵箱和電子郵件地址,你可以進行一次“大數據”分析。大規模的分析涉及到在高性能工作流中對上億個這種圖片和數據對象進行處理。

渴求內容的設備世界

作為另一個例子,由于移動設備上爆炸式增長的媒體創建和消費,視頻轉碼的需求和使用情境每天都在快速增長。在如今的互聯網連接的設備世界,每個被創建出來的視頻片段平均要被“轉碼”到差不多20個以上的不同格式以供用戶消費。

轉碼操作開始于最高分辨率的文件,通常是在一群分布式服務器上并行進行。性能通常是要求達到頂峰,因為許多視頻應用程序是有關體育或新聞的,價值窗口時間很短。競爭性的商業轉碼解決方案要求的是在快速讀取和大規模寫入方面都進行優化的快速的存儲解決方案。

錢、錢、錢……

在金融服務部門,收入就是數字、速度以及在控制風險的同時在正確的時間做出最好的決策。

我們看到在金融服務公司,數據抓取、算法開發、測試和風險管理項目都在將性能要求推向傳統存儲的極限。對沖基金和交易公司正在開始利用并行方式以便更快地分析倉位和實施交易策略。通過使用支持大規模并行數據訪問的可擴展系統,研究人員可以分析更大的數據集,更快地測試更多的情景和模型。相同地,風險經理也在提高他們的評估能力,從原來一天一兩次評估總的市場頭寸到在更短的時間間隔內進行評估。

所有這些都直接關系到錢和競爭優勢。

極限云應用程序

如果現在有一個“正常的”云存儲這樣的東西,那么它的速度會被認為比“網速” 要慢。但是考慮極限應用程序的企業也可以通過云托管而不是構建內部基礎設施來尋求靈活性和彈性,尤其是當主要數據來源是Web 2.0應用程序的時候。

隨著一些像Amazon Web Services這樣的云服務提供商克服數據I/O和存儲挑戰并為IO密集型大數據和視頻轉碼提供云托管,我們預計許多服務提供商將積極提供支持極限應用程序的服務。

救世主并行文件系統

極限應用程序帶來了一些有趣的存儲系統挑戰,不過這些挑戰可以由并行文件系統來解決。

并行文件系統是基于向外擴展存儲節點,可以擴展和同時服務于來自多個節點和磁盤的大型文件。和向外擴展集群式NAS(網絡附加存儲)不同的是,這種NAS可以在同一時間將許多文件獨立提供給不同客戶(比如,在大型企業的托管家庭目錄或完全分區/共享的大數據塊),而并行文件系統可以在同一時間為許多互相聯系的處理節點提供大型共享文件。

基于Apache Hadoop(配置HDFS)的大數據解決方案也是圍繞向外擴展存儲而設計的。不過它們基本上可以將數據分布到不同的塊中。它們針對的是在每個節點所分配的本地數據塊 上由孤立的“映射的”任務來執行分析工作。這種批量類型的方式可以帶來商品硬件架構,因為本地化的故障可以在擴大為集群故障之前被異步地重新處理掉并被“縮減”成可以被解決的問題。

不過,極限應用程序,包括許多機器學習和仿真算法,依賴于高水平的節點間通信和共享全局訪問文件。這種同步式的集群處理要求高并行訪問吞吐率、共享數據的低延遲率,以及企業級的數據保護和高可用性–和HDFS有很大不同。

極限性能的工業化

強大的超算并行文件系統崛起于學術和研究領域,并已經準備好部署在商業的企業數據中心?,F在已經有一些基于開源Lustre的商業化的Linux中心并行文件系統(比如帶來DDN和Terascala的系統)用于基于Linux的集群計算。同時,為了讓IT企業采納支持多操作系統和企業級數據保護的極限應用程序,我們看到GPFS(IBM的通用并行文件系統)在設定標準。

并行文件系統可以在多種類型的存儲節點上部署,從自己開發的集群到完整的設備都可以。比如,DDN已經工業化了多個并行文件系統以便在企業市場上承載極限應用程序。他們的GRIDScaler解決方案整合并利用了在他們的專業HPC存儲硬件上的并行文件服務。這種類型的整合的“設備”解決方案可以帶來方便的管理、優化的性能、減少的復雜性和完整的系統支持,從而為企業帶來更低的總擁有成本。

極度迫切

新的數據密集型解決方案使得企業可以探索分析大量的數據來挖掘新形式的知識和情報。這些新的極限應用程序可以創造出改變整合市場的新收入流。

大數據分析是極限應用程序的一種類型,不過從以新方式處理大量新數據的角度看,這只是冰山的一角。需要并行文件訪問、高吞吐率、低延遲率和高可用性的新應用程序也在不斷增加,而越來越多的企業(以及服務提供商)將需要部署和支持它們。

幸運的是,在并行文件系統等技術的工業化潮流之下,IT部門可以利用廠商的這種趨勢來支持這些具有挑戰性的極限應用程序。技術上的借口正在消失,而競爭正在白熱化–所有企業都應該加緊部署自己的極限應用程序。

如果你在IT部門工作同時還沒被要求支持極限應用程序,你應該做好迎接它的準備。

未經允許不得轉載:存儲在線-存儲專業媒體 » “極限”應用程序促進并行文件系統推廣
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走