中國計算機行業協會信息存儲與安全專委會會長、華中科技大學武漢光電國家研究中心信息存儲系統教育部重點實驗室謝長生教授

以下內容是謝長生教授講演的要點記錄。

《道德經》啟迪的信息空間新內涵

在現代信息哲學中,有物理空間和信息空間的概念,一般認為信息空間是映射物理空間的表征體系,而謝長生教授則認為信息空間是映射物理空間和思維空間的表征體系,賦予信息空間新的內涵。

這源于他受老子《道德經》中“道可道”、“名可名”的啟發。第一個“道”是世間客觀規律,第二個“道”是說出來。用現代語言來表達,就是世間的客觀規律可由信息來表達,這就是物理空間到信息空間的變換。 “名可名”,第一個“名”是頭腦中的概念,第二個“名”是命名,也即用信息來表達。也就是說,人們頭腦中的概念也可以由信息來表達。很多信息表達的事物實際上并不存在于物理空間,而是來自人們的思維,比如小說、動畫、法律乃至當下的元宇宙中人們構想的世間本不存在的場景和角色等。有太多的信息是來自于人的想象,占據了信息空間很大部分內容,而這部分信息在過去一直處于被忽視的狀態。

信息有多種表征形式,如語言、文字、繪畫、照片、視頻等,但是它有兩大奇點,奇點就是宇宙大爆炸的原點。謝長生教授表示,他的演講題目“存儲如何匹配數據和算力迅猛增長”中提到的兩個關鍵詞——“數據”與“算力”,就對應信息空間的兩個奇點。

信息空間(Syberspace) 兩大奇點

謝長生教授表示信息空間有“數據“和”圖靈機“兩大奇點。將信息數字化就成為數據,信息一旦數字化,就使得數據呈爆發式增長。而圖靈機概念的出現,則引發了以計算為核心的信息革命。

要深刻理解這兩個奇點的重要意義,就需要了解其背后的道理。

信息表達有多種形式,但數據是表達能力最強的一種,古希臘哲學家畢德格拉斯就認為“萬物皆數”。既然信息要表達世間萬物,就要有盡可能多的狀態。只要增加位長,數據就可以有無窮多的狀態,可以對應表達無窮多的事物。比如IPv6編址可有2的128次方,可以為地球上每一粒沙子編號,數據表達信息的狀態數量比語言、文字多得多,想要多少狀態就可以表達多少狀態。其次,數據可以與其他任何信息形式進行相互轉化,如語言、文字、圖形、圖像、視頻都可以轉化成數據,數據也可以轉化為其他任何信息形式,數據是唯一具備這種能力的信息表達形式。

所以,數據是至今為止人類找到的最佳信息表達形式,信息的數字化是必然的趨勢,數據量的爆炸性增長也是必然趨勢。

奇點2是圖靈機。如果沒有圖靈機,那么數字都是沒有靈魂、缺乏智慧的。就像這副米開朗基羅的畫,上帝用土造了一個人,本來是沒有靈魂的,但上帝手指一點,人就活了。謝長生認為圖靈機為信息空間注入了靈魂。

圖靈證明圖靈機可以解決一切有解的數學問題,而元胞自動機的先驅沃夫曼則在其著作“ A new kind of science”中指出,圖靈機可以表達宇宙間的一切規律。這是人類發明的不同于自然界的智能方式:計算智能。圖靈機的理論能力極強,它催生了現代計算機,引爆了信息革命。

存儲與“數據”與“圖靈機”之間存在什么關系?

謝長生教授分析認為,存儲既是數據的載體,又是圖靈機的一部分。形象地看,圖靈機由三個部分組成:處理部分(即讀寫頭及其控制)、存儲部分(無限長的可改寫的帶子)和傳輸部分(帶子載著數據移動)。大道至簡,如此簡單的圖靈機模型告訴人們,只要對數據進行處理、存儲、傳輸三個簡單動作,就能表達世間的一切規律。圖靈機對存儲的要求一是容量越大越好,二是要與處理的速度相匹配。

讓存儲匹配數據量的迅猛增長

謝長生教授從介質的角度來進行了分析。

IDC預計2025年數據量將達到175ZB,今年的增長是61 ZB,增長量非??焖?。

謝長生提了幾個數據量之外的問題:第一,這些數據是寶貴數據,還是一般數據或垃圾數據?不同的數據其保存方法、保存介質都是不一樣的。第二,是熱數據還是溫數據、冷數據?第三,數據的壽命需要保存多長時間?第四,保存這些數據的能耗是多少?第五,保存這些數據的成本是多少?

理想的介質,是能同時滿足能量、性能、能耗、成本、壽命的需求,但現實中根本不存在這樣的介質。

衡量介質有8個維度:容量、成本、耐磨性、持久性、讀時間、寫時間、帶寬和能耗,而存儲介質分為電、磁、光、量子、DNA等幾種原理。如今,電磁光已經商業化,量子和DNA還在研究之中。

時下最熱門的存儲介質當屬閃存,3D NAND2022年的最新水平是236層,單片容量已經達到了1Tb,采用TLC技術;未來計劃是從600層到1000層。

其次是硬盤。硬盤正在被固態盤取代,然而它“垂而不死”,還在向大容量、低成本方向轉型。由于與固態盤存在5倍-7倍的價格差距,更適合保存溫冷數據。未來五年之內硬盤還將會存在,能再繼續存在多久,現在也說不準,還有發展的空間。

當前硬盤領域有幾種新的技術支撐其進一步發展:已經商品化的磁通控制-微波輔助磁記錄(FC-MAMR)技術與微波輔助切換-微波輔助磁記錄(MAS-MAMR)技術,目前容量已達20TB。未來幾年將采用熱輔助磁記錄(HAMR)技術,容量可超過40TB。

磁帶方面,最新的LTO磁帶可保存18TB數據,壓縮后可以保存45TB的數據。因為能大幅度節約存儲成本,在磁帶在數據中心“卷土重來”。

光存儲,屬于第二種“卷土重來”的技術。

光存儲以前主要用于音視頻、軟件的分發,曾經十分輝煌,后來被網絡淘汰。但它又因為網絡的進一步發展而“起死回生”,藍光存儲已經從50GB到發展到現在的500GB,容量有10倍的提高,用于保存數據中心的冷數據和歸檔數據。與其他存儲介質相比,光存儲具有壽命長、節能、可靠、安全等優點,長期保存成本非常低。

謝長生教授介紹,我國已經部署了一個重點研發計劃,三年內開發出單盤1TB的光盤、光驅以及光盤庫,以雙面6層的方式來實現,華中科技大學也是參加單位之一。藍光光盤技術演進路線是,先將道間距變窄,再將位密度提高,1TB光盤將用到多階技術。藍光光盤的壽命可以達到一百年,是有發展前景的介質。

藍光之后人們在探索的新一代光存儲技術有多種,其中有明顯優勢的有三種:

一是全息光存儲技術,單盤容量從2個TB到8個TB。

二是突破光學衍射極限的雙光束超分辨技術,突破光學衍射極限的技術曾經獲得過諾貝爾獎,后來被用于光存儲。因為突破了衍射極限,過去一個光點大小的面積中,用這種技術可以存上百個點,成百倍地提高了容量。

三是玻璃存儲。微軟公司將好萊塢影片“超人”刻錄到玻璃之中,這是當時一個很大的新聞。特斯拉汽車發射太空的時候也把玻璃存儲帶入到太空,把信息傳遞給外星文明。這個技術來源是英國南開普敦大學開發的玻璃的5維光盤,壽命打破了吉尼斯世界記錄,可永久存儲,在1000度高溫下不丟失信息。該技術的第一發明人張靜宇博士已經被華中科技大學武漢光電國家研究中心引進。張博士回國以后建立了平臺,啟動了中國多維永久存儲的研發,并已經在實驗室實現了多項新的突破。

武漢光電國家研究中心實驗室建立了5D-7D玻璃光存儲平臺,為提高記錄速度,將平動變成轉動,而且有多維讀出的系統,還可以結合突破衍射極限的技術。這些在實驗室都完成了試驗研究,最新進展就是實現了高速記錄和100層以上的5維存儲,記錄每個數據單元只用1.3個皮秒(一皮秒等于一萬億分之一秒)。

微軟在玻璃存儲產業化方面進展迅速,微軟提供的信息顯示,飛秒激光在玻璃上一層一層地掃,可以掃75層甚至更多層,可比現在的藍光光盤保存多很多倍的信息,再做成一個大型光盤庫,用機械手去抓取,可以方便地把庫變得非常大,還可非常方便地擴展下去。這種存儲如果安放在數據中心,它的長期成本遠遠低于磁帶庫。微軟看中這個技術并投入巨資開發的原因主要是:永久存儲,成本低,節能。

對中國存儲產業發展的思考

面對快速發展的存儲技術,中國存儲產業面臨一些挑戰。,

一是中國介質要走什么道路?

中國的數據規模在世界上已經排名第二,但是幾乎全部保存在國外介質中:硬盤、磁帶百分之百進口,禁售硬盤對華為、??档绕髽I造成很大影響,長江存儲雖然可以生產閃存芯片,也有自己的核心技術,但是產量很少。謝長生教授指出,中國介質問題的解決之道有兩條:一是對熱數據發展閃存及基于閃存的設備和系統;二是對溫冷數據發展光存儲。光存儲是一條換道超車的新路,在這條路上我國的基礎是比較好的,在新一代光存儲方面的研究不少還處于領先狀態。

二是存儲如何匹配算力的迅猛增長?

圖靈機的理論能力非常強,可以表達世間的一切規律。但圖靈框架計算機實際可釋放的能力卻取決于算力,速度越快、能力越強,如果無限快,那什么問題都可以解決。因此,圖靈框架下的計算機就是無止境地追求算力。

我們回顧算力發展歷史,第一個驅動力是技術驅動。晶體管的數量按摩爾定律增長,在晶體管數量不斷增長的物質條件保證下,人們從并行體系結構的角度發展出提高算力的各種技術,指令級并行、數據并行、同構多核(多核CPU)、異構并行(CPU+DSA,DSA是特定領域的架構,將晶體管資源用于圖形加速就是GPU,將資源用于深度學習算法就是NPU、TPU,將網絡、存儲和安全等原本由CPU處理的功能下移就是新出現的DPU),在更大規模上的并行就是云計算中心和超算中心。另一個驅動力是應用驅動,目前10年是在ABC(AI、Bigdata、Cloud)應用的驅動下,算力需求急劇增長。

存儲如何匹配算力的高速增長?

傳統解決之道是縱橫系統,目標是將容量、性能、價格不同的存儲器通過縱、橫兩個方面組成一個系統,使其總體看起來接近理想的存儲器,即一個又大又快又便宜的存儲器??v向系統是以cache為代表的層次化存儲系統,一些新的非易失存儲器正不斷地填充縱向的層次。橫向系統的主要代表是并行,有RAID技術和分布式存儲技術。

存儲匹配算力的增長,目前也拓展出一些新的思路。一種是大內存,把數據盡可能多的放在內存里,IO就會大量節省。采用新的介質來做大內存,可以發揮非易失特性和價值便宜優勢;采用CXL這樣的新協議,可以適應大內存的發展;二是新構架,如近數據計算、存算一體化、DPU、IPU等。在近數據計算中,可計算存儲(Computational  Storage)是一個比較代表性的概念;三是新軟件,可以開發新的文件系統、新的數據庫。下面舉幾個實例來說明新架構。

第一個例子是計算型存儲。一般的固態盤不提供額外的處理能力,數據必須全部讀出到內存,由于CPU去處理,這樣,數據搬移量很大,存在著性能的天花板。如果在固態盤中進一步增強處理能力,就可以近數據處理盤內的數據,算完之后再把結果傳輸上去,數據傳遞量就會大大減少。目前已經有一些典型的應用,比如把數據庫的一些計算下推到智能硬盤,或者利用盤內計算能力進行數據壓縮,都起到了非常好的效果。

第二個例子是存算一體化,也叫存內計算。

憶阻器本身可以存儲信息,加上電壓以后,通過憶阻器電阻得到電流,如果把電流加起來,就會得到一個公式,這個公式和矩陣計算的公式一模一樣。這樣的結構即可以存也可以算,不需要搬運數據,可以大大提高深度學習的算法的速度。第三個例子是英偉達和英特爾推出的DPU和IPU,這是繼CPU和GPU之后的第三顆主力芯片,可以合理地搭配計算、存儲和網絡資源,實現高效的體系架構。謝長生教授的團隊也非常重視DPU技術,開發了基于DPU分布式內存池的系統,課題組的學生用這項技術在首屆英偉達DPU黑客松比賽中贏取了冠軍。

在存儲匹配算力方面,軟件的作用也非常關鍵,華中科技大學PDSL團隊在新興分布式文件系統研究方面開展了大量工作,所開發的新型文件系統FlashFS應用于濟南超算中心的存儲系統,獲得了今年在德國舉行的超級計算大會(ICS2022)10節點的IO500冠軍。

三類智能模式

上述技術都是在圖靈機模式下、也就是在計算智能模式下實現的。

還有兩類智能模式:類腦模式和擬物模式,類腦是模擬大腦,擬物模式是量子計算、光計算,與傳統存儲系統完全不一樣。這些內容有機會以后再做介紹。

總結

回顧一下,謝長生教授此次演講中,重點介紹了四大內容:一是信息空間由物理空間和思維空間映射而得到,他提出的這個觀點頗具新意;二是信息空間有兩大奇點:數據和圖靈機;三是信息數字化轉型和持續發展是必然規律,數據規模也將必然迅猛增長,圖靈機理論能力極為強大,圖靈框架下的計算機實際能力取決于算力的增長;四是從介質的角度介紹了存儲如何匹配數據量的迅猛增長,又從結構的角度介紹了存儲如何匹配算力的迅猛增長。聽后很有收獲也很受啟迪。

【如果需要回看謝長生教授此次視頻演講報告,請關注DOIT官網或公眾號】



未經允許不得轉載:存儲在線-存儲專業媒體 » 華中科大謝長生教授:存儲匹配數據和算力迅猛增長的觀察與實踐
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走