圖一:中國科學院高能物理研究所的研究員孫功星發表演講

圖二:高能物理需要大量的計算資源,并且會產生大量的數據。

孫功星表示,在高能物理領域的大數據處理過程主要包括三個方面:首先是Data Recording,Raw Event從探測器獲取,以二進制格式記錄的探測器信號,再由計算機產生模擬實驗的蒙特卡羅模擬數據,將物理信號數字化;然后是Data Processing,讀出Raw/MC Raw,處理產生相關物理信息,如動量、對撞頂點等;最后就是Data Mining,由上千個屬性組成的DST Event文件,提供物理學家進行分析,并最后產生物理結果。

圖三:高能物理的數據處理過程。

 

圖四:物理分析。

孫功星研究員表示,物理學家通過大數據處理三個過程,在里面找到有興趣的數據?,F在我們開始嘗試采用Hadoop本地系統,采用Hadoop方案之后,對于網絡、磁盤陣列的需求減少很多。當然在高能物理領域的Hadoop應用跟互聯網有所不同,因此我們也有針對性,特別是在IO方面做了一些工作,以適用Hadoop架構。通過Lustre和Hadoop架構的對比,我們進行分析測試后發現,在處理性能和文件重建等方面都有著大幅的性能提升。過去傳統的方式就是拿數據過來分析,扔掉不重要的數據,然后再拿數據進行分析,再扔掉不重要的數據,過程比較繁瑣。通過Hadoop架構,我們將TAG數據放入到Hbase中,TAG數據則是非常小的,利用Hadoop的確是能大幅提升性能。

圖五:在MapReduce下面運行C++

圖六:測試對比結果。

圖七:將TAG數據放入Hbase。

圖八:測試性能結果。 

最后,孫功星研究員認為高能物理領域是大數據、數據挖掘的技術,具有完善的數據挖掘軟件。未來LHC升級將會產生幾倍于現在的數據,給高能物理計算帶來更多挑戰,因此現在的趨勢就是探索新型的計算機體系結構、高性能計算機結合的方案。

未經允許不得轉載:存儲在線-存儲專業媒體 » HPC China2013:高能物理大數據存儲、處理及挖掘
分享到

shaolong

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走