數據存儲產業服務平臺

互聯網數據倉庫Internet Archive的海量存儲淺析

Internet Archive(IA) 這個站點大家應該都不陌生。IA 旨在建立所有互聯網站點的"檔案庫",如果說 Google 是互聯網的數據庫的話,那么 IA 就是互聯網的數據倉庫了,定期對每個 Web 頁面保存快照,數據量之大可想而知。

  先看看 IA 每天需要面對的處理能力:

  存儲超過 850 億個 Web 頁面;

  每天大約 600 萬次的下載;

  Wayback Machine 收到大約 1000 萬次點擊,每秒鐘要處理 100-200 個點擊;

  每天10萬次左右通過 URL 查找;

  每天 400 萬次返回請求;

  存儲的內容包括本文、音頻、視頻…等各種 Web 可見的格式。

顯然 IA 需要的是一種前所未有的存儲解決解決方案–廉價、可靠、低功耗…總之用起來要省錢。IA 的志愿者不得不考慮自己動手建立符合他們需要的存儲系統,這下子可不簡單,2004 年,第一個 100GB 容量的近線存儲投入使用 。IA 的志愿者之一 Saikley 干脆抽身而出成立了 Capricorn Technologies 公司,專為類似組織提供存儲解決方案。前面提到的 100TB 容量的產品即為該公司 GB 系列的產品?,F在 IA 已經采用 PS(PowerStore) 系列的 PetaBox,是量身定做的,裝機容量 1.5T,目前容量已經超過 3PB(怕是遠遠超過 3PB 了)。PS 系列產品每節點原始容量可以達到 3T,使用日立 Deskstar 硬盤,僅僅占 1U 的機柜空間。IA 也在站點上介紹了定制的這臺 PetaBox 的一些規格要求以及參數。

PetaBox 也是 Linux 在企業級應用取得成功的一個范例。

PetaBox 存儲產品給存儲界帶來了不小的震撼。每 GB 的成本僅僅是 2 美元。這還是 2005 年的價格,現在應該更便宜了。搜索了一下,這家公司目前還沒有進入中國。

PetaBox 系統通過一個集中式的 PXE 啟動服務器運行在 Debian 或是 Fedora Linux ,通過 Nagios 進行整個環境的監控。 管理成本也并不高–每 PB 一個人。

未經允許不得轉載:存儲在線-存儲專業媒體 » 互聯網數據倉庫Internet Archive的海量存儲淺析
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走