▲百度大數據存儲體系
陳尚義還透露,為應對上百PB的數據,滿足諸多近乎苛刻的要求,百度采取了一些措施。包括開發網頁更新模型,將對磁盤的隨機寫轉化為批量的順序寫,提高數據的寫入速度,縮短了網頁數據的更新周期,提高搜索引擎等產品時效果性。
此外,還包括對涉及數據存儲和訪問的各個方面進行全局優化。對訪問模式采用數據索引、緩存熱點數據、外存預讀、IO緩存等技術手段,降低在線訪問的延遲,提高系統的吞吐量;未來,百度還將開發跨數據中心的存儲系統。