TPCx-BB是由國際標準化測試權威組織(TPC)發布的基于零售業場景構建的端到端大數據測試基準,支持主流分布式大數據處理引擎,模擬了整個線上與線下業務流程,有30個查詢語句,涉及到描述性過程型查詢、數據挖掘以及機器學習的算法。
此次,阿里云參賽的是自研的神龍大數據加速引擎MRACC(ApasaraCompute MapReduce Accelerator)。MRACC針對大數據常用組件,如Spark、Hadoop、Alluxio等,結合自研神龍架構的特性,進行軟硬一體化優化,形成獨一無二的性能優勢,最終,使復雜SQL查詢場景性能相比社區版spark提升2-3倍,使用eRDMA加速Spark性能提升30%。
具體來說,針對大數據任務重IO特性,阿里云MRACC在網絡和存儲方面結合云上的架構優勢進行軟硬件加速,包括軟件的SQL引擎優化,使用緩存、文件裁剪、索引等優化手段,并嘗試將壓縮等運算卸載到異構器件;還使用eRDMA進行網絡加速,將shuffle階段的數據交換運行在eRDMA網絡,使得延時降低、CPU利用率大幅提升。
據悉,TPCx-BB的測試結果,可以全面準確的反映端到端的大數據系統的整體運行性能,涵蓋了結構化、半結構化和非結構化數據,能夠從客戶實際場景角度更全面的評估大數據系統軟硬件性能、性價比、服務和功耗等各個方面,對各行業的基礎設施選型有著重要參考意義。