中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生

 “這一切的背后,都是大數據的價值再現。顯然,大數據對人類的影響是巨大的?!?0月21日,在以“智算賦能 · 共贏未來”為主題的2021 CCF全國高性能計算學術年會上,中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生以多個實例做了說明。

“通過大數據的解析,人類對核酸疫苗和核酸藥物有了充分的認識,從而推動了核酸研究的發展,整個生物醫藥進入了‘核酸時代’。也為未來出現新的烈性傳染病、烈性病毒的治療提供了很好的經驗?!?陳潤生院士說。

大數據對健康和疾病治療和預防的巨大作用

美國知名影星安吉麗娜·朱莉(Angelina Jolie)誕生于乳腺癌家族。這個家族的女性到了一定年齡就會因罹患惡性乳腺腫瘤去世。早期一直無法獲知病因,后來采用大數據測量了遺傳密碼后發現原因是基因BRCA1的突變,意味著發生癌癥的概率是正常人的100倍。不幸的是,Jolie在檢測后的基因變異呈陽性。盡管她才39歲,尚未查出癌癥,但她毅然決定切除部分女性器官以及當時完全正常的雙乳。雖然不能保證身體其他部位不會發生癌變,同時手術也會帶來巨大的長期副作用,但從此她終身不必再為罹患乳腺癌擔憂了,在這個方面,她多少算是有一些幸運。

年近9旬的美國前總統吉米卡特(Jimmy Carter)在體檢時發現罹患了晚期黑色素瘤,這種皮膚腫瘤中惡性程度最高的癌癥極易出現轉移。事實上,Carter總統罹患的這種腫瘤已經同時向肝腦轉移。大數據檢測精準發現,該腫瘤一個非常重要的微環境的變化十分契合剛剛研制出的抗原。只用五個月的時間對癥治療,原發腫瘤不僅僅徹底消失,所有的轉移灶也不見了,身上再也找不到任何腫瘤細胞。依賴于大數據精確的測量和判斷,卡特現在還是很好的活著。

這樣的例子不勝枚舉。

人類遺傳密碼的破譯,意味著生物醫學在大數據時代,不僅僅可以使得疾病得到了精準預測、精準的用藥和有效的治療,更重要的是還會推動生物醫學發生本質變化,使得整個醫療體系實現了對全民從出生到死亡全生命周期科學診斷、治療、健康提供的保障。

這樣的健康體系與現有體系的本質區別,必然引起國家相應法律法規、藥物管理體制、社保制度等一系列的法律法規的變化,最終推動大數據相關生物醫藥產業發展;發達國家包括美國、歐盟、英國、日本都建立了針對大數據驅動的精準醫學的計劃和執行。據估計,該產業規模將達到萬億美元的數量級。

但是,這一市場并非唾手可得的。

從大數據中掘金,存儲面臨的挑戰與對策

早期健康醫療數據無非是血壓、血脂等一些簡單的數值,后來升級為各種醫學影像,數據量不斷加大。

隨著數據采集手段的豐富,如手環等可穿戴設備也成為記錄生理指標的工具,過去不常見的數據也都變成了生物醫學相關的大數據,如電子病歷以及超聲、CT這樣的影像,微生物、大氣中的霧霾、水文中的化肥農藥,以及本地輻射等等相關信息,都成為了大數據;特別是,遺傳密碼的破譯,使得與生命健康相關的數據那就成數量級的增加。如新冠病毒核苷酸的鏈只有29903個,而人類遺傳密碼是3乘以10的九次方。

在數理特征方面,生物醫藥大數據多尺度、高維度、異質化,而且是動態實時的,其作用方式不像物理和化學體系那樣的標量,而是相量、非線性的。

中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生

無論是生物醫學、基因工程,都涉及到大量的數據,數據價值的挖掘離不開傳輸、存儲和分析等環節。陳潤生院士表示,數據存儲永遠是計算中很重要的一個話題。

數據一定要保存一段時間,是為了進一步的驗證、為了跟其他數據來比較。從早前簡單的數值,到如今一個人的遺傳密碼達到3×10的9次方,大量爆炸性增加的數據,對于更好的分析,作用十分重大,所以一定要儲存。

如此大量級的數據的儲存,對介質要求也很高,一是要求能夠穩定可靠,二是要求能夠容量大、存儲密度高,三是在存儲和提取的過程當中能耗盡量的小,等等。

對存儲方面的需求,不只是來自遺傳密碼和基因工程方面,整個計算領域也有相同的需求。

為了化解上述難題,生物學界也在考慮采用DNA存儲即用生物大分子存儲方式來有效地保證上述目標的實現。作為一種技術變革,生用物分子來作為存儲和計算也是人們正在研究的一個很重要的方向,雖然可能還需要數十年的探索和努力。

陳潤生院士指出,存儲和計算機的發展步調是一致的。當前馮諾依曼架構正面臨著變革,三納米樣機已經問世,一納米也正在研究中,但是再向前困難就越來越大了,因為物理本質決定的介質容易被熱擊穿。所以,量子計算、神經計算、DNA計算已經成為下一步關注的熱點。

高性能計算與生物醫學的融合:化解大數據的建模與挖掘難題

從早期的遺傳密碼,到細分的基因組,蛋白組、表觀組、代謝組等一個個新的組學誕生,生物領域在不斷拓展,數據的量也在不斷增加,數據的形式與內涵也越來越豐富,生物大數據的應用范圍也越來越豐富。

大數據的建模、挖掘也是當前生物醫學領域面臨的棘手問題。陳潤生院士指出,這有賴于高性能計算和計算機方面領域的科學家共同的支援和幫助:“越來越多的信息挖掘都需要計算,需要更多的高性能計算提供更多的算法、算力;而高性能計算與生物醫學結合已經成為趨勢,并且會越來越緊密?!?/p>

在陳潤生院士看來,高性能計算和生物數據的解析是一個共同學習,互相了解、互相滲透、交叉融合以促進實際問題解決的過程,需要兩個領域的科學家能夠深度了解彼此,而更好的方向是培養出新一代的科學家,這些科學家既是高性能計算的專家,又是生物大分子生物組學領域知識的專家。

生物數據量越來越大,內涵越來越多,挖掘其中的知識就需要合適的方法。人工智能就是其中之一。

在生物大分子結構預測中,至少有兩個領域為人工智能或深度學習技術展示了應用價值。一是結構預測,類似AlphaFold2這樣的技術可以很好地預測蛋白質的結構,精度達到了實驗的90%以上,為諸如核酸疫苗、核酸藥物的設計開拓了很好的前景;二是醫療影像學方面,用人工智能構建的影像系統超過任何一個獨立的醫生評估的準確度,為精準治療提供更好的工具。

“人工智能在生物研究工作中發揮了很大的作用,展示了非常美好的前景?!标悵櫳菏勘硎荆骸半m然人工智能的模式、理論、技術還有待于進一步完善和發展,但對生物醫學科研工作者而言,構造一個良好的學習集是充分發揮人工智能作用非常重要的環節?!?/p>

大數據,推進生物醫學更加蓬勃發展

以大數據、高性能計算、人工智能等為代表的信息技術在推進生物醫學的發展方面還存在巨大的潛力。

據介紹,在基礎研究工作的論文數量、總引數量、重要論文基礎數量等方面,我國已經超過了美國,也遠遠超過了德國、日本和英國。

如果能將基礎研究成果有效轉化、結合大數據挖掘開發新一代藥物,很可能會取得一大批國際領先和創新的成果。

中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生

伴隨著遺傳密碼的破譯,生物醫藥領域正在發生變革,而變革的源頭正是以遺傳密碼為代表的大數據。陳潤生院士深信:“在更多其他領域科學家的介入后,這個領域一定能夠得到更加蓬勃的發展,為人類造取更大的福利!”

未經允許不得轉載:存儲在線-存儲專業媒體 » 陳潤生院士:高性能計算與人工智能的交叉融合,托起萬億級美元的生物大數據產業
分享到

謝世誠

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走