為了解決散熱問題,風扇的轉速和風量也需大幅提升。風扇作為一個經典的旋轉機械,它的振動加速度值與轉速呈2次方的比例關系,而它的扇葉旋轉帶來的氣動噪聲與轉速呈6次方的比例關系。

這就引發一個新問題:硬盤將受到風扇振動、噪聲的干擾,這干擾達到一定量級之后,硬盤就不能正常讀取和寫入了。而且,硬盤的單盤容量五年之間就翻倍了,方法之一就是讓磁單元變小、讓磁道寬度變小,因此對磁頭的定位精度要求更高。拿16TB的硬盤來說,磁道的寬度大約是50nm,而磁頭的位置偏差需要控制在10nm以內。也就是說,需要把硬盤工作環境內的振動控制到極低的程度,才能保證硬盤的正常讀寫。

我們在近幾年的服務器設計中,不管是浪潮最新一代的服務器產品中,還是Facebook 的OCP存儲架構中,都看到了在風扇附近出現了吸音泡棉和蜂窩波導網,能緩解風扇的高頻噪音對硬盤的影響。在企業中都會有專門的測試項目來驗證這個問題,不同的公司測試方法的稱呼不同,如RV(Rotational Vibration),RVI(Rotational Vibration Interference),PLV(Performance Loss Verification),ISP(In System Performance)等。

有一個比喻特別形象,就是地震的時候人在黑板上寫字,肯定寫得歪歪扭扭,別人再去讀的時候,也一定讀不準確,這塊黑板就面目全非、錯誤連篇了。這個過程發生在硬盤的磁盤上,就會產生壞扇區,壞扇區積累得多了,硬盤會報錯,甚至會被系統標記為壞盤。

為了控制磁頭的振動,硬盤內部有一套主動控制的機制,來識別并修正位置偏差(PES),簡單來說就是盡量讓磁頭寫入磁道中心,如果偏離得遠了,作動器就會施加動態的反向作用力把磁頭糾正回來。糾正不回來的,就不允許寫入,而是要等碟片再轉1圈或者N圈,直到磁頭能夠準確定位到目標位置再執行寫入的動作,這個過程我們叫它Retry(重試),Retry的圈數越多,硬盤的寫入性能就損失得越多。這就是硬盤受振動干擾而性能下降的原理。

如果大家使用機械硬盤的筆記本,可能遇到過這種場景,用它播放一首歌曲如《青藏高原》,本來硬盤正在有條不紊地向聲卡輸送數據,音樂播放很流暢,突然歌聲變得高亢起來,喇叭釋放出巨大的能量,硬盤內部發生共振,不能正常輸出數據了,音樂就會開始卡頓,再過一會兒,筆記本就藍屏了。

現在我們筆記本里用機械硬盤比較少了,但是類似事故可能會發生在數據中心。比如火警報警器、滅火器噴氣的聲音,還有和硬盤同氣連枝的風扇的噪聲,都會影響到硬盤。

第一次聽說風扇的噪聲能影響到硬盤內部工作的人,往往會覺得不可思議。其實這也并不神奇,因為聲音就是空氣的振動,我們能聽到聲音也是因為空氣的振動傳遞到耳道內引起骨膜等一系列骨骼的振動。風扇的噪聲也一樣能引起它附近的硬盤內部零部件的振動。經過調查,硬盤的磁頭尺寸竟然和耳蝸的尺寸差不多(1mm左右)。磁頭等尺度精密的零部件因為高頻噪聲激勵而發生共振,也屬正常。而且風扇的轉速越高,它的高頻成分就越多,能量越大,因此高轉速風扇會對硬盤造成明顯的的影響。

二、如何改善硬盤與機箱振動的兼容性?

作為服務器系統的研發,首先我們應該了解到機械硬盤的這種物理上的局限性,其次應想方設法地提高硬盤和我們機箱和風扇的兼容性。

OCP這個平臺是全球第一次把這么多公司的振動、噪聲專業領域的研發人員聚集在一起,有Facebook, Microsoft, Dell,浪潮,希捷,西部數據,還有類似BOYD的散熱風扇、散熱器供應商,大家的關系是友商、是供應商與客戶、或是產業鏈的上下游的合作伙伴。

在OCP發起Storage Vibration(也即存儲設備振動)項目之前,各個公司在相對隔離的條件下,研發著各自的產品和技術。由于每個公司對存儲、服務器發展的目標有差異,花了兩年時間迭代出來的產品,如硬盤、主板、風扇、機箱等,組裝起來時出現兼容性的問題。麻煩的是,這個兼容性問題不是簡單的結構裝配或者通訊協議匹配這些可以提前形成規范的東西,而是必須要硬盤、風扇、機箱都有了樣品,組裝在一起才能試驗出問題來;然而,一旦出現了問題就很難補救,除非重新設計。

因此各個公司不約而同的開始思考,如何把振動、噪聲、硬盤的性能這些看不著、說不清的抽象概念也形成規范設計?從2020年4月起,OCP Storage – Vibration項目組聚集了行業內的一線研發人員,共同商討對策,統一測量標準,開放設計經驗,以期在硬盤容量、散熱風扇并肩發展的趨勢中找到新的平衡點。

三、統一的測量系統

OCP Storage – Vibration的目標是:Common Language and Tool。翻譯過來就是形成一套在各個公司之間都適用的溝通流程和技術術語,以及定義一個統一的測量系統。

在此之前,各個公司都以不同的方式測量機箱里的振動和噪聲,然后再去分析和解決問題。為了能讓麥克風安裝在硬盤槽位內,一般都是設計一個HDD Acoustic Surrogate(采集噪聲的硬盤假體),它的外形與硬盤相同,可以代替硬盤插入機箱內部,由嵌入其中的高精度麥克風采集噪聲信號,配合前端數采組成一套測量系統。但是這里面涉及很多細節,每個細節的差異都會導致相同一個機箱的測量結果不同。大家知道,測量系統不統一,數據是沒辦法進行比較的,更別提在不同的公司制定統一的標準。所以OCP Storage小組里的各個公司把自己正在使用的方法和工具分享出來,然后共同測量一個機箱的噪聲信號,進行信號的相關性分析,并進行優劣勢的比較和細節整合,最后定義了一個Acoustic Surrogate的設計。

在OCP Storage – Vibration項目中,測量系統按照如下7個方面分別進行討論:

1、麥克風的選型和安裝位置

根據工藝,市面上麥克風可以分為MEMS、ECM和ICP。MEMS和ECM麥克風因其小巧的身材和低廉的成本,常用在手機、助聽器、耳機等消費級產品中,但其動態范圍一般較窄,頻響曲線漂移較大,不能覆蓋服務器機箱內的測量需求,而且經實驗驗證,其測量誤差在某些頻段高達60dB以上。因此高精度的ICP麥克風成為Acoustic Surrogate中的首推之選。另外,機箱內的空間緊湊,對麥克風的尺寸限制非常嚴苛,最終選取了Grass 47BX,一顆1/4英寸的平頭安裝式(flush mount)麥克風。

2、麥克風的數量和方位

在各自設計的Acoustic Surrogate中,有的公司把麥克風放在硬盤SAS/SATA接口的位置(靠近背板);有的把多顆麥克風以陣列的形式布置在硬盤的上表面;有的公司把麥克風安裝在硬盤的上表面和下表面。根據不同方位采集到的噪聲信號與PES的相關性分析(correlation analysis),最終發現:將麥克風放置在上、下表面對應碟片轉軸的位置,采集到的噪聲信號與PES的頻域相關性最好,也據此定義了麥克風的數量和方位。

備注:Position Error Signal,磁頭置位誤差,與硬盤性能損失直接相關。

3、Acoustic Surrogate的材料

不同材料的聲阻抗不同,對聲音信號的測量結果是有影響的。一般來說,聲阻抗應不低于10,只要不是過軟的或者吸音的材料就可以使用。OCP推薦的材料是鋁合金。

4、數據采集硬件

數據采集硬件的選擇很多,只要能滿足2個通道的ICP信號采集,并且支持24位精度,以及40kHz采樣率,就可配合前文提到的麥克風進行服務器內的噪聲采集。

5、數據采集參數

為了得到足夠的數據可以做有效的分析,在風扇轉速平穩后應采集不少于10s的噪聲信號,采樣率不能低于40kHz。

6、測量信號的統計和分析方法

有的公司習慣于分布很多麥克風然后求其平均值,有的公司則不做平均;有的公司對振動和噪聲信號做倍頻程分析或者1/3倍頻程分析,有的公司則習慣于用窄帶FFT來分析。OCP-Storage小組內討論的結果是,同一個Acoustic Surrogate的2顆麥克風的信號應不計平均,單獨進行無計權1/3倍頻程分析,并繪制風險識別彩圖,作為公司之間技術交流的依據。以下為一個噪聲數據的范例。

風險識別彩圖的劃分方式尚無統一定義,由各個公司分別定義,以上只是OCP給出的一個范例。在劃分風險區域時,應使得大多數機箱都落在黃色(中風險)區域。

目前介紹Acoustic Surrogate的規格書已經發布到OCP官網上,可以直接點擊鏈接https://www.opencompute.org/documents/spec-pdf下載,或者在OCP官網進入contribution頁面搜索【HDD dynamics】。OCP官網上也同步公開了3D圖,供各個公司自由獲取并制作、使用。OCP-Storage小組內的公司也基本上都已經按照這個規格加工出一些Acoustic Surrogate,在研發早期階段就可以開始采集機箱硬盤槽內的噪聲,然后與硬盤廠、風扇廠聯合進行服務器、存儲機箱內的聲學設計。下一步OCP Storage項目組將對硬盤安裝環境的振動測量工具、方法進行討論和定義。最終可能會發布一個全新的工具,集噪聲、振動采集的功能于一體。

四、浪潮的實踐

浪潮始終活躍在OCP等開放計算的社區中,貢獻我們的設計經驗和數據,也堅持第一時間把OCP最先進的方法帶到公司內應用和實踐。目前浪潮已經開始使用OCP Acoustic Surrogate,是中國第一家掌握這項技術并按照OCP規范加工自己的Acoustic Surrogate的公司。我們不僅擁有OCP定義的3.5”HDD Acoustic Surrogate,而且自主設計了2.5”HDD Acoustic Surrogate,在HDD Vibration Surrogate(采集振動的硬盤假體)的應用中也積累了一些經驗,可以進行各種服務器、存儲機箱的噪聲和振動信號分析,結合硬盤的敏感度曲線可以在研發早期進行有效的風險評估,并輔助機箱和風扇的聲學優化和結構動力學設計。

下面是一個短視頻,介紹浪潮在OCP Acoustic Surrogate的實踐。

OCP China Day 2021 – 分論壇3 – OCP服務器存儲模塊振動(Vibration)項目-實驗

感謝我的同事葉毓睿、王嵩凱對本篇文章、視頻的貢獻。

擴展閱讀:

1、OCP Storage項目組 Vibration規范

https://www.opencompute.org/documents/spec-pdf

2、OCP China Day 2021 – 分論壇3 – OCP存儲設備振動項目【視頻】

https://mudu.tv/live/watch/general?id=lj8bke2m&key=9ef192aaae74fbc41b5b6bdcd807f436&type=assign

未經允許不得轉載:存儲在線-存儲專業媒體 » OCP服務器存儲模塊振動研究與實踐
分享到

songjy

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走