中石油東方物探數據中心原總工程師、教授級高級工程師賴能和

當天下午,中石油東方物探數據中心原總工程師、教授級高級工程師賴能和在“數據創新應用論壇”上發表了題為“數智時代新型基礎設施建設實踐與探索”的演講,結合石油勘探領域的應用,講述了IT基礎設施的基本現狀、大模型對新型IT基礎設施帶來的新挑戰等情況。

本文根據演講速記整理,未經本人審定。

賴能和:各位來賓,下午好!

我今天跟大家分享的是“數智時代新型IT基礎設施建設實踐與探索”。

想這個名字我想了很久,后面我講為什么想很久。

非常感謝DOIT搭的這個平臺,來美麗的金雞湖畔交流基礎設施的建設,也感謝在座的各位花時間一塊聽分享。

我一直在中石油做高性能計算,做人工智能,做存儲、云計算、大數據,做數據中心基礎設施,一說基礎設施,大家想到的是CPU、GPU、網絡、UPS、空調、綜合布線基礎設施。我題目不加“IT”行不行?不行,如果不加IT和國家的基礎設施、新基建又不一樣了,所以一定要加“IT”。

在分享之前,講幾張PPT告訴大家什么叫油氣勘探。

油氣勘探與數字化

很多人不知道油氣勘探,南方人知道的更少,因為找石油的基本都是在北方。什么叫油氣勘探?油氣勘探就是找石油的,找出來以后給油田,我們只負責找。怎么找?很難的。油氣勘探的產業鏈很長,36000人做油氣勘探,有勘探、開發、煉化、新能源、銷售、新材料、資本,還有金融資本。

現在很火的新能源、新材料,大家都在轉型,圖上黃色的都是轉型過來的,新能源、新材料,加油站是下游。

我們是干什么呢?第一個環節,找油。這是一個產業鏈非常長、技術密集型、設備密集型、專業密集型的行業,僅勘探就有12個專業,計算機都排到最后,前面還有測量、地質、地儲物理。

怎么做油氣勘探?油氣勘探有三個環節,第一就是采數據,以前大家聽說過挖個坑放炸藥,波就往底下傳,遇到水、油、氣、沙,就會往回,會把信號傳上來,就是數據采集。有多少個接收點,以前就是24個接收點,現在有十幾萬個接收點,數據量非常大。我們有100多個隊伍,所以每天的數據非常多,這是陸上挖坑。

現在不允許挖坑了,有特種車輛,很古怪的車,非常大,高頻率地上震動,波就往下傳,然后返回來,就得回來數據采集。

采集完數據以后,我怎么知道地下有油呢?就需要強大的計算機,我們國家最先進的計算機就是用在石油和軍工,在70年代、80年代,包括我們的銀河1、銀河2都是在這方面用,這是國家的能源安全,找石油的第二個環節就是高性能計算機。我自己負責的數據中心大概有3萬多個節點,幾百P的存儲,不停地運作。

從高性能計算做完以后怎么辦?誰也看不懂,那就找“老中醫”,他可以看出哪里有油,哪里有氣,就做成PPT上右邊的那個圖,然后給油田確定打井,好幾千萬一口井,所以很慎重。有人說找油不是很容易嗎?為什么那么貴呢?我跟大家講,找到以后打井下去成功率也不到40%,前面花的精力都白搭了,所以確定哪里打井的時候非常慎重,所以現在反過來說要把前面的數據整理好,采集的數據準,處理的數據要準,還要把老資料、老信息結合起來,要綜合分析。

簡單來說,就是給地球的地表做CT,

CT數據量非常大,這就是油氣勘探。

整個石油勘探的線非常長,比如說勘探第一個環節,有鉆井、測井、壓裂,不是光打一個地方,周邊的地方要壓裂,把油都流到這里來,還有采油工程,然后把油氣收起來,每一個都是非常巨大的工程,技術含量非常高,數字化程度也非常高。

油氣勘探發展五、六十年,跟過去有什么區別呢?有五方面:一是現在找油更難找了,非常隱秘。二是非常深,東部,華東地區都是比較淺,包括東北地區都是東部地區比較淺,新疆、西部地區非常深,有一些都上萬米的井,打一口井上萬米。三是隱蔽的油氣藏。四是非物探,非常規的,比如說煤層氣。五是深海油氣。

這就帶來新的問題。

大家講降低生產成本,要做到所有的數據處理是準確的,精確的高效力,要可度量,要有一個具體數據,所以要做數字化、智能化,需要巨大的算力存儲和靈活的IT基礎設施,這就是AI的加持。

大家都知道,1956年就有了人工智能,三起兩落,三次起來又落下去,發展了六七十年,現在又在做,為什么呢?因為沒有解決落地的問題。今天一定要讓人工智能產生效益,光做一個音響不行,要解決生產問題,現在做人工智能要跟工業生產結合起來,提升效率。

石油行業數字化、信息化是走在比較前面的。

我們上世紀90年代就在做信息化,油氣勘探本身就是數字行業,采集過來都是數據,雖然采數據非常笨,有很多機械的模式,信息化從2000年第一個階段就是分散建設,和現在很多單位一樣,就是有錢就買一點。2000年左右不讓分開買了,要集中。第三個階段,就是要應用集成,因為買硬件和軟件全部集成起來。第四個階段就是要數據共享、軟件也要共享,說起來很簡單,做起來非常難。比如說軟件共享怎么做?這都是技術問題,數據要有共享,那么多數據,不同的格式,所以會形成數據湖的概念。

共享起來就行了嗎?不行,資源共享來以后要做數據化轉型,數字化轉型太虛了,到底做什么事?我后面會跟大家分享一下我們到底怎么做數字化創新。

通過以上幾張PPT,我把怎么做石油勘探做了分享。

IT基礎設施面臨的機遇與挑戰

數智時代IT基礎設施到底有哪些新的挑戰?下一步要做什么?我一一跟大家介紹。

這個PPT我做了好幾個月,但是時間很短,我就講其中一小部分。

今天的基礎設施有新的內涵了,大家說基礎設施、新基礎設施,如果不加IT就有問題了。

數智時代的IT基礎設施,數據中心、數據基礎設施是其中一部分,為什么只算一部分呢?算力、存儲、數據倉,這都是過去的;智能計算,加速卡、邊緣計算、數據湖,還有算法庫、模型庫、知識庫、技術標準體系、數據安全體系、AI開發平臺、物聯網平臺、應用軟件與開發平臺、多學科協同研究平臺,這都是今天新的基礎設施,原來IT基礎設施就是UPS、空調、布線,那都是看得見的硬件,剛剛說的都是軟的,跟數據有關聯。

今天的IT基礎設施面臨哪些機遇與挑戰?

一是現有的IT基礎設施已經很難滿足生產發展需求,油氣勘探的裝備也和國外差距非常大,很大一部分的裝備依賴于國外。

二是今天的算力不夠。國家建了十個國家超算中心,24個智能大腦還不夠嗎?看你是干什么用,給石油就不夠,但是干別的可能富裕了很多。

比如說一個項目的數據270T,要投入600+32GPU+4PB做配套。一個項目1000T,要2000多個CPU匹配,384GPU匹配,還有幾十個PB匹配;另外,數據要流動,就要花很多空間。

三是存儲不夠,量不夠,性能也不夠。量靠買的,但是買多了成本也很高,以前1P就是幾百萬,后來幾百萬,現在變成幾十萬,現在幾十萬買幾十P沒有問題,但是一下買30P、50P也不少錢。

四是性能。海量的數據如何讀寫,檢測也是很大的問題。1TB的數據在屏幕上顯示一下很難打開,2TB的數據就更沒法打開,三維可視化是沒有辦法打開的,一定要借助很多新的數據技術。

五是生產周期很長,系統擴展性差?,F有的IT基礎設施很難跟進業務發展的需要,為什么?因為要算成本,要提高用戶體驗,還要智能算力、智能運維,現有的基礎設施做不到,大部分的公司做不到,只有新上的設備可以做到。

六是技術發展非???,包括有云、物聯網、云原生、人工智能等等。

現有IT基礎設施無法適應數據挖掘要求,油氣勘探過去積攢的數據都是分散放在不同的地方,如何把價值挖掘起來也是非常難的,有些地方有些數據還要考古,因為不知道數據是誰的,也不知道對不對,有些數據好幾個副本,不知道哪一個是正確的,所以如何把它用起來是很難的。

過去很多單位都是一棟大樓放數據,很多先進的設備都躺在那兒,那個不是資產,資產要流動起來才有價值。

上午的報告我都在認真的聽,有兩個演講提到了升級平臺。沙鋼有80多個應用平臺,經過十幾年、二十年的數字建設,會出現非常多孤立的應用。比如說工業互聯網600多個APP,平臺多,數據庫多,數據類型有結構化、有半結構化、有非結構化的數據。

數智時代大模型成為技術競爭的新熱點。

1956年出現人工智能,到70年代末有機器學習,機器學習做半天沒有什么效果,大家就不干了,不投資了。2006年又做深度學習,深度學習能做一些事,但是算力不夠,太貴,所以又停在那兒。這兩年硬件價格下去,存儲價格下去了,尤其是很多GPU的價格下來了,可以做很多事,所以從2018年開始要做大模型了。

以AIGC為例。AIGC一開始就是文字,只能看,后來還可以變為圖像視頻,多維的空間,不停的變,所以數據模型越來越多。

今天的大模型具有新的特點,一是超大模型都大于10億數十/百層,數千張CPU訓練。二是預訓練,泛化的通用能力,具體場景可微調。三是學習方式是自監督學,不需要做標注,因為做標注非常難,非常費時間,另外就是框架,大家都知道大模型就兩個家族,一個是OpenAI,一個就是Google的PaLm,他們是祖宗,后面又衍生了很多。其實模型的數據也是不停地變化,過去的是大模型,過幾天也成小模型了,數據都在一直變。

大模型成為所有IT的頭部公司都在做的事。好幾家合作伙伴都讓給我開賬號,讓我免費用,但有些能干,有些什么都干不了。比如,我讓Python寫代碼,但是寫了一半就不寫了。

模型參數,我們了解了解就可以了,包括浪潮有元,華為有盤古,阿里有通義,百度有文心一言。

今天的人工智能從單點技術走向了通用技術,這是很不一樣的,就是很時髦的AGI,從大模型走向超大模型,從單模態走向多模態。

大模型與新型IT基礎設施

有太多挑戰了,一是算力,算力的開放程度、架構、普惠程度,能不能用得起來,模型的部署,模型的訓練,模型資源的調度、能耗等等還有就是在線服務能力,幾千人、幾萬人上平臺上點,平臺就阻塞了,對平臺要求在線化要求服務很高。

對企業來說,AGI的出現,基礎設施會面臨哪些挑戰?一是算力不夠,小公司玩不起。二是模型訓練,三是要有很多的數據,四是就是人才,AI人才很吃香,價格很高。

對于一個企業來說,要適應新的變化,一是要把現有的應用變為智能化,二是模型建立自己行業的模型,三是智能的通用化。

我們做哪些呢?一是做工業互聯網平臺,多專業、跨領域的工業互聯網平臺,我們做了小十年了,這是最大的平臺,跟業務結合起來。

二是數據湖,把橫跨60多年的數據放進去,結構化和非結構化的數據都有,數據量是很龐大的。

三是人工智能通用平臺。中石油花很多錢建人工智能通用平臺,比如說TensorFlow、飛槳都可以重復用。

四是開發生產物聯網平臺,幾萬個數據采集做這個平臺,各個油田安裝使用。

五是高性能計算云平臺。

六是應用軟件云平臺。應用軟件是我們自己的,我們把云和軟件結合在一起。

七是大模型平臺。大家都在建自己行業的大模型。石油勘探,以前都是找一個區塊勘探,這樣實際上還是不夠的。如柴達木盆地,就要建一個大的數據庫,建一個大模型,以后在柴達木盆地搞勘探的時候就基于這個大模型,有指導意義。我們地震勘探大模型參數達到500萬就夠用了,上午有一位嘉賓講到了如何把模型進行優化。

八是AI框架開發平臺。

下一步的設想

一是統一頂層設計,要做好數字化轉型規劃。二是云計算平臺技術升級,三是多學科協同平臺,四是數據服務要進行升級,五是共享平臺建設、物聯網平臺升級,六是數字孿生,數字孿生不是做監控,數字孿生一定和物理世界有交互,要互動,要實時,七是數據集中共享,如果數據還在分散,那數字化轉型都是假的。數據集中并不簡單,統一管理就把成本降下去了,數據挖掘,數據利用就可以真正實現數據資產的管理。八是AI一定要跟生產數據湖集成。

新型IT基礎設施八大新

新型IT基礎設施有八大新的特點。

新底座。新型IT基礎設施是數智化轉型關鍵底座,需要更強算力、更普惠、更綠色、更少碳足跡。

新標準,建立統一工業互聯網技術體系、建立統一數據標準。

新平臺,加快升級、完善全連接+業務協同工作平臺+數據平臺+AI平臺集成實現數據共享+AI賦能。

新場景,堅持業務主導,需求導向、創新驅動、平臺支撐。

新技術,加強AR/MR、數字孿生技術應用,構建全連接、全交互、全感知的數字孿生體。

新起點,人工智能AI正從單點技術走向真正通用技術AGI。

新范式,從大模型走向超大模型從單模態走向多模態。

新生態,探索與著名IT公司跨領域合作,形成開放共享創新應用生態。

我的報告就是這些,謝謝大家!

未經允許不得轉載:存儲在線-存儲專業媒體 » 中石油賴能和:數智時代新型IT基礎設施建設實踐與探索
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走