首先Ceph當成一個分布式存儲或者軟件定義存儲,其實它是一個積木式架構。就是企業用戶自主可控余地很多,選擇很多,從底層硬件可以選擇任何的通用硬件,X86硬件,硬盤,網絡,這些硬件服務器上需要搭超融合系統,然后需要部署Ceph軟件,Ceph要根據客戶的應用提供塊存儲、對象存儲和文件存儲,在這個積木式的架構上可以看出,Ceph其實跟超融合系統是緊密結合的,任何一塊Ceph的軟件都要跟超融合系統進行交互,這就是企業用戶在選擇Ceph的時候必須要選擇能夠提供基礎架構廠家的原因。

解決方案設計六步曲

接下來是Ceph的方案設計。所謂方案設計包括兩部分,一部分就是關鍵的體系架構,還有經過驗證的實施方案。

這里面我們提供一個成功法則給大家,Ceph落地的成功法則有三步,客戶必須要選擇兼容性的硬件,兼容性的服務器,對于Ceph軟件必須要選擇一個企業的發行版本,最后就是一個部署指南,就是搭積木的方式,把這三部分結合在一起。

具體怎么樣做呢?

整個方案設計分為六步,第一,你必須要確定這個分布式存儲需要解決什么樣的問題,就是你的應用場景是什么樣,視頻圖像存儲,還是用來給虛擬機存鏡像用的,有的可能是用于容器公有云,有的大部分用于做備份,我們必須要確定你這個應用場景,然后才能確定具體的需求,需求包括很多,最重要的就是你的容量需求,性能需求,還有訪問方式是用塊訪問還是對象還是文件,還有你需要副本數是多少,你需要的糾刪,或者有沒有一些特殊的要求,所以在這里面我們根據客戶的具體需求和場景來進行整個方案的討論。

?這個討論是要根據需求落實你需要什么樣的軟硬件,提供什么樣的一個接口,整個的測試怎么樣,來確保方案設計滿足企業的要求,這個設計還包括整個方案的實施,還有最后整個實施文檔以及結果,都要記錄下來。

整個Ceph的分布式存儲就是一個DIY的過程,用戶有很大的自主能力,選擇的空間,所以他選擇的硬件和選擇的不一樣,可能整個實施過程也不一樣,整個的方案也不一樣,所以整個方案設計會涉及到這四部分,就是硬件怎么選擇,軟件怎么選擇,需要哪些人員去做,整個的實施計劃是怎么樣的,都明確下來。

要適應這些經驗法則

在部署Ceph分布式存儲過程中,我們首先企業必須要知道什么是最重要的,包括你的場景需要多高性能,使用的場景怎么樣,是容器還是虛擬機,還是備份,是否需要地理冗余,也就是對象存儲雙活存儲,這些場景是否需要依賴特定的功能,所謂特定的功能,剛才說了你是否需要重刪的功能,你是否需要把數據備份同步到第三方存儲上面,也有這樣的一些特定的功能。

根據這些你會去定義解決方案是一個通用的解決方案還是定制的解決方案,其實每個廠家提供Ceph的解決方案都會有一些通用的解決方案,或者是針對某個場景的特定的解決方案。因為對于通用的解決方案,其實它常用的配置就足夠了,但是如果一些特定的解決方案可能還需要進一步的調整,或者有一些部分的功能還需要二次開發,所以在這里面我們必須要明確存儲什么是最重要的。

    明確了里面的使用場景什么最重要以后,還有另外一點,重要的事情要說三遍,必須要了解Ceph這個產品,它能提供什么,怎么樣才能獲得一個Ceph的分布式存儲。

你買來一堆的服務器,硬件,還有網卡,在上面部署超融合系統,部署Ceph軟件,根據應用的需求我們會提供塊存儲還是對象存儲還是文件存儲,這里面可以選擇的空間很大,每一個東西用戶都可以選擇,所以會有一個選擇的痛苦。

選擇服務器,選擇什么樣的CPU,價格是不一樣的,你可以選擇最常用的英特爾CPU,或者是ARM CPU都可以,Ceph都支持。硬盤你可以選擇普通的PCie硬盤,生命周期不一樣,價格不一樣,容量不一樣,你也可以選擇副本,技術也可以選擇糾刪碼技術,也不太一樣,得出來的性能也不一樣,你是否需要Cache,有讀和寫cache,所以里面有很多需要用戶選擇的地方。

怎么辦?這也有一些經驗,對于硬盤來說,Ceph支持不同類型的硬盤,有普通的SATA硬盤、SAS硬盤,也有PCIE和SSD和NVMe的硬盤,其實有一點,企業去使用Ceph的時候必須要明確的,企業Ceph社區在一開始整個設計來說,它是用于吞吐量這種場景,不是用于高性能低延時的IOPS場景。就好像3副本,必須要把數據同時落盤以后才能返回給客戶端,所以整個的訪問路徑其實是很長的,所以一開始的時候不適合使用在低延時高性能的存儲里面,但是它特別適合用于對于吞吐量要求高,對于容量要求高這種存儲里面。

當然對于未來得發展,現在Cache的技術也發展的越來越快,未來也可以用于性能要求很高的,就好像數據庫這種場景。

    還有一點大家需要注意的,不要使用消費類別的硬盤,這個已經經過驗證了,必須要使用企業級的硬盤。

對于硬盤來說有什么經驗法則呢?這里面列出了各種硬盤的性能,可以看得出來SATA硬盤比SaaS硬盤,轉數不一樣,還有普通的SATA SSD和SAS SSD和NVME,它的性能不一樣,價格也不一樣,容量也不一樣,其實客戶在選擇的時候,都選擇價格最低,容量最大的,但是得到的性能其實也是不一樣的。這個是我們經驗值,就是對于3副本的Ceph集群,可以看出來一個普通的7200轉的SATA硬盤,最多就能提供30兆的帶寬,10K的SaaS硬盤最多能提供45兆的帶寬,如果是SATA SSD可以提供120兆的帶寬出來,所以必須要根據客戶對性能的要求,去算多少的硬盤才能滿足對吞吐量的要求。

第二可以選擇網絡,這有幾個很重要的指標,Ceph對網絡的要求很高,基本上在生產里面必須是萬兆網卡起步,如果你底下的硬盤越多,對帶寬要求越高,對網卡的要求也是很高的,我們的經驗告訴你,最好最好就是用聚合綁定,如果是萬兆網卡,如果是兩個萬兆網口綁在一起,基本可以提供快20GB的網絡,VLANs也可以使用。很重要的就是我們要使用巨型禎,如果應用帶寬要求高,建議使用,就是MTU=9000。

    網絡的法則我們經常在客戶那遇到的兩個常見問題,就是上行鏈路帶寬太窄,好像我們到收費站,每一個口都是10GB一樣,但最后聚集在一個路口上,那就是擁堵了,其實也是一樣的。我們每臺服務器,因為分布式存儲都是一臺一臺服務器,我們每臺服務器可以對外提供10GB,但是上行鏈路必須要確保每個10GB加起來可以通出去,別上行鏈路提供也是10GB,其實你是無法去充分發揮每臺服務器的帶寬。

    第二個法則,Ceph存儲里面至少分兩類網絡,一個是對外業務網絡,一個集群網絡,因為數據寫到一個硬盤上,要同時去往外,在底下的集群網絡同時到其他服務器同步數據,所以有個法則,對于3副本,集群網絡必須是業務網絡的帶寬兩倍,這一點很多廠家在選擇Ceph里面犯錯誤。

 還有一個就是很重要的,服務器的選擇,我們給出第一個很重要的經驗,就是要確保你的超融合系統和軟件必須要跟服務器有兼容性的認證,為什么這樣說?其實我們去跟很多客戶聊的時候,因為Ceph是開源的,有很多國內創業型廠家就是把Ceph拿下來,給打包一下,然后給用戶,就提供一個版本了,他們是用開源的OS,其實都沒有跟底下的廠家做驗證,有一次我的客戶說他用了開源的Ceph,用了OS,數據丟了,廠家說這是硬件的問題,硬件廠家說你的存儲軟件根本沒有跟我的做兼容性驗證,所以在這里面我們會建議客戶選擇的Ceph軟件必須要跟下面的硬件有兼容性的認證。

服務器,除了選擇品牌還可以選擇CPU、RAID控制卡,內存和硬盤PCIe的規格和通道數,有很多這方面的選擇,具體怎么選擇?

CPU,目前Ceph支持三種類型的CPU,一個是因特爾的,一個是NVMe的,還有ARM的,這里列出了我們一些經驗,如果你是一個普通的硬盤,CPU主屏需求要求多高,SATA硬盤或者SAS硬盤建議有2GHz的主屏,SSD我們建議2到4Ghz,NVMe是4到8 Ghz,這個是我們的經驗值,考慮到Ceph去做正常的服務或者去做數據同步對CPU的要求。

如果用戶需要使用Ceph文件訪問,有一個MDS服務器,Metadata服務器,客戶端打開文件越多,需要的內存越多,CPU我們推薦服務器必須三個或者更多給大家,還有一個就是Metadata因為有一個原數據,我們建議這個原數據pool在SSD或者NVMe,來加速它的訪問索引。

網關,如果客戶需要用到對象存儲,必須要用到RGW對象網關,對象網關有很多的文件訪問,建議使用更多的內存和CPU內核,一個網關服務器我們建議需要12個CPU的核80Ghz,普通的網關,包括Samba、ISCSI和NFS網關,我們建議4到6個CPU的核和16個內存就可以了。

剛才介紹了我們一些經驗法則,最后根據這些經驗你們的選擇要得到一個實施的指南。

首先你所做得方案指南必須滿足存儲的需求,分為三部分,業務的需求,性能的需求,軟件的需求。業務的需求就是數據保護最重要,很多人如果要說數據保護,就要確保RPO和RTO等于0,如果是對象網關可能有多站點,多個存儲實時的進行鏡像。

性能的要求包括容量、帶寬、IOPS和延時,性能的要求對硬件的選擇是很重要的,什么樣的硬件對應什么樣的性能,軟件的要求就是要根據用例,根據你實際的應用,需要提供怎么樣的協議出來,因為剛才說了Ceph塊、對象、文件,你的應用不一樣,需要構建的協議也不一樣,數據保護也是一樣的,Ceph可以提供副本的技術,副本的數據保護和糾刪碼的方式,這兩種方式出來的性能或者出來的有效存儲容量也是不一樣的。

根據這個需求我們就可以去作出整個的方案設計出來,好像搭積木一樣,包括設計文檔、實施部署、測試、上線前的準備,還有測試,還有上線后的維保,維保的方式,出現問題我需要怎么預解決,或者一些場景問題的處理,把整個方案好象積木一樣搭建起來。

SUSE可以提供一個很完整完善的經過驗證的實施指南給大家。如果大家感興趣可以訪問,如果大家對Ceph需要了解,也可以自己找機器,不管是虛擬機還是物理機,可以按照我們整個視頻教學整個去搭建Ceph,這里面有鏈接,我們給大家提供一個最佳的實踐指南(https://www.suse.com/c/zh-hans/sesv6-setup/)。

(本文未經演講者本人審閱)

未經允許不得轉載:存儲在線-存儲專業媒體 » SUSE林培峰:Ceph企業落地的最佳實踐
分享到

崔歡歡

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走