 

當前位置：存儲在線-存儲專業媒體  新聞  正文

張華平：大數據搜索與挖掘：知著見微曉義

2015-12-16 分類：新聞

　　2015年12月10日，由DOIT傳媒、存儲在線和易會聯合主辦的2015中國存儲年度峰會在北京盛大開幕。作為中國存儲界有影響力的年度行業盛會，峰會以“把握數據經濟，重塑商業變革”為主題，吸引了上百位存儲界的頂級學者專家、數百位產業精英和企業用戶出席。

　　由DOIT主辦的中國存儲峰會是中國存儲產業界最為隆重的年度大會。十一年來緊貼存儲產業發展，豐富地記錄了存儲產業在各個歷史時期的變化發展，已成為存儲學術界、產業界和企業用戶不可錯過的歷史見證。

　　北京理工大學、大數據搜索與挖掘實驗室副教授、主任、博士張華平發表了“大數據搜索與挖掘：知著見微曉義”主題演講。以下為演講實錄：

　　我今天想跟大家介紹的并不是跟存儲相關，純粹是介紹大數據相關的工作，尤其是我們實驗室做的一些內容。我的題目叫大數據搜索與挖掘：知著見微曉義。

　　關于大數據我相信在座已經聽了很多很多了，這里坦率來講大數據炒作很多，很多東西說實在都是魚龍混雜，各有各的問題。有人說大數據就是英特爾芯片，有人說大數據就是Oracle的大程序庫，有各種各樣的解讀。作為一個獨立的觀察者來講，我來說一下我對大數據的理解給大家看一下。

　　我在央視解說過大概四五次棱鏡手機監控的事情。它非常簡單，原理也很簡單。因為我們跟基站通訊，數據里各種各樣，什么時間，什么地點，我在哪都有。我后面說的東西不是瞎吹牛，所有東西都是有做實驗。這是不是大數據呢？現在我們聽到大部分的大數據的概念歸根到底是另外三個字，就是數據大，數據特別大。原來我給大家吹牛的時候我有2G的數據，特別厲害，現在說1TB不是更厲害，現在一吹牛就是1PB才高大上。其實沒什么了不起，只不過數據存了更多而已。后來我們擴展用Hadoop的平臺，對大數據的真正理解從表層數據能挖掘出一些深層的知識。從此可以推斷出你個人活動規律，你什么時候起床，什么時候睡覺，生活是否健康，你出國的概率有多少。還可以分析你的社交圈，跟你交往前十大有哪些，哪些企業家他的背后是哪些官員跟他關系比較好，一下就出來了。如果我們從金融角度做風險控制，哪個企業到底什么狀況很容易清楚。我想通過這個例子告訴大家我理解的大數據。比如我今天拿了100億數據，就是一天的數據可能會不精確，如果給我一年的數據出錯概率很少，給我五年的數據可以高概率推算出。大數據的就是量變引起質，大量數據用簡單的方法得出的結果比用小數據的方法還好。

　　這兩個我不解釋，是兩種非常以訛傳訛的解釋，一個是WIKI，一個是來自維克托的所謂大數據的開創啟蒙運動者。這兩個都不科學，用的是必要條件，而不是充分必要條件。實在找不出各種解釋的前提下，我去年出了一本書在學界的影響力還不錯，是我們這個行當最暢銷的一本書。我在書里提到我對大數據的理解，我強調幾個東西：第一個大數據強調微觀數據，強調它的多樣性和變化，強調它的存量的認識。還有用科技革命，讓數據說話。大數據是新的概念把原來的理論和數據整合，產生一些新的東西。今天討論的數據經濟是由此而來，不是簡單的概念炒作。

　　這里用這張圖給大家解釋我這個理念，其實這里面我們看到11張圖片，我們現在只能給它定義為信息，所謂信息就是解決了你的一些不確定性的一個問題的數據。你看完之后就知道他長什么樣，這是信息。我們在前大數據時代，我們做的大部分的工作都是信息處理，我們的財務管理系統，ERP、CRM都是信息，跟我剛才說的信息存進去，一個方法能夠把他取出來，然后給你看，僅此而已。但是在大數據時代，大家能夠比較清晰的看到的是我們將11個表上價值不高的普通的信息最后綜合到一塊，產生了一個知識，該知道這個人有重大的貪腐行為。這里其實就是信息的碰撞疊加，我給它取一個名字就是1+1>>2。

　　這里又說我們的一個觀察，70年代計算方式的革命，90年代傳播方式的革命，大數據時代是決策方式革命。怎么理解？我嘗試做了梳理。決策分四個要素，第一個就是決策主體，就是誰說了算，第二決策的依據，第三是決策的機制，決策的效率問題。小數據時代，我們就拿電影為例，這個電影《富春山居圖》，它的唯一賣點就是劉天王和林志玲。這個片子口碑特別差，最后他的票房還不錯。原因很簡單，神丑效應，大家想看看到底爛到什么樣，大家就去看。接下來這個沒有那么幸運《失孤》，它的決策模式很有意思，他是這樣子，我的制片人是決策主體我說了算。我天生相信劉德華是票房神話，只要有劉德華，票房一定大賣。最后上映兩周之后，既不叫好又不叫座，票房特別差。因為片子已經上了兩周之后，損失已經拉不回來了。這個決策模式絕大部分機構都這么玩，老板拍板。

　　其實劉德華演《失孤》，唯一賣點就是你們想不想看看劉天王裝扮成民工是什么樣的?，F在在影視里面，中國現在大部分的決策模式不僅僅是影視，也有一個例子就是《老男孩》唱《蘋果》那個，這部電影非常受歡迎。我分析整個過程非常有意思，他之前在優酷上拍了40分鐘的視頻，大概傳了有一年左右，300萬用戶看。就是因為有這些人做底子，最后決定做這個電影。它的決策模式，想拍這個電影就有300萬已有的用戶，他知道300萬用戶清晰的需求。原因很簡單，我看電影的時候往前拖拽就說明我對這個橋段不喜歡，往回找就是特別喜歡個橋段。這是為數不多的小成本制作的方式，效果非常好。決策模式就是對用戶洞察的非常的清晰，幾乎可以預測到誰對我感興趣，知道這些在什么地方，有什么共同點。后面決策過程當中是非常實時來推的。影視類的大數據就是《紙牌屋》，西方尤其是歐美電視劇模式是收集大量觀眾的反映，決定我下一季是讓他死還是活，有的大反派大家太喜歡他了，所以上一季死了，這一季又讓他復活。

　　這里有很多標簽，我把它中國話講一下，就是中國常說“多、快、好、省”，數據比較多，產生比較快。我強調這兩個字，一個是“省、好”。大數據來了之后花錢建大數據中心，這個思路是錯的。大數據云平臺之后，美國大量減少他的數據中心，越來越集中，他是效率越來越高。我們實驗室這么多年的實踐，我們現在主要做兩大塊，一塊是國家安全，一塊是金融的風險控制。我們的基本體會是在用大數據的平臺，其實比傳統的IOE實際上它的效率要高大概3倍以上，我的成本可以降原來1/2，甚至還不到。盡管有很多人來游說，我們把開源的東西真正玩到極致，也能做到非常牛。今天我們說的阿里也是開源的基礎上改造。我們還要更多強調價值，數據本身挖掘他的真正的價值出來。這里的一些區別，不花時間講了。

　　講一些技術相關，大數據豐富龐雜，很大的挑戰。如何做的？就是知著、見微、曉義。什么是知著，就是這個圖一樣，這個是大數據非常好的抽樣的模型。大數據就是無數個小數據完全宏觀的結構完成。我們分析特定的事件的時候，我們可能一個小時之內要涉及到200萬人，我一個小時要出報告。這個前提下，我不可能每個人詳細做洞察分析，那是絕對做不到的。我們宏觀分析非常重要，我們的算法黑快速的了解他們這些人主要的觀點是什么。大概多少人的偏好是什么，這是我們最關鍵的。其實在座你們去做你們的業務應用的時候也是這樣，我們宏觀的洞察你們的受眾的客戶，他們的特征特點和偏好，可能比某一個微觀分析更加重要。在宏觀已知的前提下我們做一些微觀的洞察，比如說這里我們會做一些關鍵節點的分析。曉意是做語義分析，做數據庫分析，可以做很多工作，這是不夠的。我們大量的數據比結構化數據要十倍以上的數據或者是100倍以上的數據是非結構化的數據，比如說文本、語音等等。

　　做語義分析的話，這是我常用的幾個橋段。中文語義理解里面，不理解到位的話問題很多。比如說中文的語義的理解，英文也有這個。比如說英文的語義理解Who？接下來這樣的情況同樣存在。這里面最終極的問題就是機器理解自然語言，我們想說一句英文，電話那邊出中文，然后英文回答，互相翻譯。我們想做完之后，這個問題很難，大家會看到很多機械理解的意思。這是語義理解的重要性，其實我們今天對客戶分析，我們做大量的工作，其實我們客戶真正的含義想要做的問題，我們了解還不夠，這里其實有很多的挑戰。

　　怎么來解決這個問題？我想告訴大家的是我們對客觀時間的理解，是要映射到思維，所有思維要用自然語言表達出來。無論是書面形式還用口頭形式，這里面之間有一個衰減效應，是非常厲害的。怎么來解決這個問題呢？我們現在更多是大數據的模式，可能某個人理解有偏差，不可能所有人理解都是錯的。我們大家所有人不同的理解，他的共同的交集，最大的交集就是對客觀事件比較正確的反映。

　　我這里提了我的想法，就是大數據更大意義上是非結構化內容的理解。為什么這么說？我們結構化的數據現在不需要花太的功夫，原因非常簡單。因為我們的傳統的結構化數據以后關注數據庫以及數據倉庫的故事，這個問題解決的非常的OK。我們以訛傳訛的數據挖掘的故事，啤酒和尿布的故事，那個故事根本不存在。那個我們現在有一些成熟的數據挖掘的工具很快就能計算出來。我們在大數據時代和我分享的是更大意義上的非結構化的理解。我用這張圖表達我的理解，大數據的三個V是通過技術的手段我們要達到一個大的洞察能力。誰，什么時間在做什么樣的事情，這個后面我們可以做很多的模型。

　　在這工作我們在這塊做了有15年了到現在，稍候我會給大家更多的Demo，不是看這個。這里我們開了一個平臺，把對非結構化內容的整個語義的理解我們全部把它整合成一個共享的平臺。目前為止這個平臺有全球30萬機構在用這個平臺，包括華為，其實包括英特爾我們中國也在合作，包括人民網。大家能看到我們比較厲害的地方，有一篇文章是十八大報告，自動告訴你十八大報告的關鍵詞中國特色社會主義、改革開放、科學發展觀、生態文明建設等等。這是大數據的聚類技術，我們把所有非結構化的文本會自動的發現有一類是甲流的問題。我們整合一些大的平臺，這里是給一個雜志專門做的，后面會給大家發更多的Demo給大家看實際的東西。

　　我們的搜索引擎其實和百度是完全不一樣，有很多不一樣的效果。這里有很多語義智能的東西在里面。比如我們可以直接搜索一個人的負面或者是一個公司或者是一個產品的負面信息。大家看到一個例子，這是我們的系統架構，通過我們的系統會索引，一旦用戶有需求的時候就可以推送給我們用戶。我們給開發人員開發的架構非常的簡單，就是SaaS API你只要知道我的服務器和端口在哪，按照我們的格式提供搜索語句就可以了。我找到信息就可以算出來，我找所有的姓“張”的人，要求Content字段內，同時出現統計局、中國統計局，CPI，騙人、磚家，且兩者之間的距離必須在10個詞之內?？匆恍┢渌男Ч?，對所有結果我們會自動的分類，這個包含土豆的所有標準有哪些類別，每個類有哪些文章可以自動的篩選，包括維吾爾語的搜索引擎。

　　我們做了一些案例，這是有一家企業用我們的，每天大概有500G所有訪問日志，我們會把每個人看的內容重新爬取，爬取完之后對這個人做畫像，他是科技迷，喜歡旅游。這樣的人你給他推車和體育廣告都可以，這個人你給他推養生的廣告。每個人的偏好還有他的各個特點。這是對兩千萬微博用戶的度量，這個數字沒有任何的水分，所有水軍、機器粉都刨掉了，這是明確有人關注，可以看到這些人在網上自我表達的情況。我們會做很多人，微觀個性的觀察。這是2011、2012、2013年我的偏好，包括我們所有的行為大家可以看到，我們通過這種行為矩陣可以自動的計算出他每年自己的各種各樣的行為、特點。我們這里面計算出他的周一和周日跟其他的時間是完全不同的。所以這里面能夠發現他的一些特點，其實基于這些數據，我們可以推理出他的狀況。

　　包括我們用這個不同的行為可以推算，大家看任志強和潘石屹是接近度最高，76%的相似度。這里可以給他們推薦朋友，我們知道他們本身就是一個圈子。包括這是我們的地震的數據，這是對一個人的情緒分析，這是一個情緒波動很大的，我們負面情緒、正面情緒是不一樣的。我們分析一個人的價值觀，可以看到他不同的人，這里我們對薛蠻子和郭美美分析的非常的到位。

　　這里給大家做一些演示作為結束，這里是我實驗室的官網，NLPIR。首先我會從新浪今天頭條新聞，用Url輸入到我們這個系統，這個系統要做幾件事，快速給大家看一下。第一件事我們會把這篇文章整個采集下來，采集完之后把廣告垃圾都扔掉，真正的干巴巴的干貨、內容自動的抽取放在內容框里面。這個東西一旦完成之后，大家看比較有意思的效果。大家能看到習近平我們會標他是一個人的名字，主持了什么樣的會議，包括我們不同的顏色是表示不同詞的類型。比如說/t是時間，這里表示是一個人，中央軍委是一個機構，我們這里會自動來算，所以這里切分的理解都是非常的到位。我們還會自動的發現我們在討論一個什么樣的新的概念，教育要對外開放，講到了改革任務生態保護等等。這是我們在以前沒有看到的。

　　接下來我們在這里面還可以來自定義我們的詞，我就是干農業，可以定一組農業的關鍵詞，按照我的規矩來，這都是可以改的。這個跟大家說一下華為新款手機里面背后跑是我們的東西，我們會對衣食住行的東西會用這套系統自動能夠把他分析出來。因為我手頭幾乎有中國所有美食的名單都在這里。

　　這個文本可以拖拽，說到的人有這些，包括說到這些單位，這些機構，也包括因為這個文章是習主席說的，作者我們把它歸結為習近平。包括這個文章的主題，我們這里都有完整的分析。這里的地方還有關鍵詞。我們在這里面大家能看到我們會把這篇文章的名詞、動詞、形容詞自動計算。每一次政府的工作報告，網上有很多文科專家開始說習主席說改革說了多少次，有一回我發現他多算了兩次。但是我們的系統自動幫他算，名詞、動詞、形容詞，改革說的并不多，這里包括小組，包括他個各樣的分析數據都是有。這里是有不同的展示的可視化的效果，我們可以把它切換成這種可視化的回旋圖。我覺得這個結構不好，可以拖拽不要，換一種展示方式都可以。關鍵大家可以用我們這套系統，背后有一套開放的API，嵌入到你們自己的系統里自己用。這里會自動分類，這個文章主要是討論經濟問題。接下來我們會做一個情感分析，這篇文章主要是正面從91.8%的概率是正面文章。這是講的對習主席的正面的評價是94%，所以他的正面度更高。類似技術可以發現不同人的負面信息，包括產品的負面信息，這是對這篇文章的主題分析。大家可以看到這個文章主題是什么，也可以換成不同的方式去展示。

　　我們來看看有一個相對比較酷的小技術，改革，改革會通過背后有10G多的數據，會對他先做第一層的關聯聯想。大家能看到說改革說的最多的是變革、執政、市場化，這是改革。他關聯的詞市場化、行政化、簡政放權，每個詞之間都有關聯性，關聯性都可以算出來。這種方式，我們可以計算出不同領域各種各樣的內容。當然我們還可以一直往下擴展，背后能夠把所有概念建立一個龐大的網。這里是繁簡體的轉換，還有自動打拼音，自動摘要。用兩三句話把剛才那么長的內容總結出來。

　　我們做第二個Demo給大家看一下就是我們的搜索引擎，這是給國家電網做的。我們搜索引擎比較好玩就是你可以直接問問題。我們會把劉振亞在十年報紙上出現所有的結果，大概兩千篇文章自動搜出來。我們會把他2000篇文章自動聚類，第一個大問題就是特高壓、教育實踐活動、智能電網、全球能源互聯網、學習實踐活動，用這個把他十年的活動都做一個總結。

　　接下來給大家看一個時光機的技術，大家來看到這里，這里我們的橫坐標是從07年到2015年，我們把每一年這個人主要在琢磨什么事，我們會把他的主題完整給大家做一個推演。這里推演的非常準，比我自己寫的工作總結還要到位。這里可以看到概念之間的變化。下面相對簡單，不說太多。

　　右面我們又能夠發現一些新的好玩的東西，第一個我們會發現一些新的概念，比如說這個人我們會發現互聯網的概念，跟他相關聯的人有習近平、李克強，還有一個人叫做舒進標（音）。還有姚雷，大家知道這個人的運用的技術是什么。包括我們用同音的方法，可以分析出各大公司，包括英特爾、華為你們主要用的媒體是哪些，跟你們關系比較好的媒體是哪些同樣可以計算。后面還有一些概念擴張相關計算等等。

　　我今天的演講就到這，我最后一頁就留下我的一些聯系方式。謝謝大家。

未經允許不得轉載：存儲在線-存儲專業媒體 » 張華平：大數據搜索與挖掘：知著見微曉義

分享到

2015中國存儲峰會張華平

wangky

存儲在線（DOSTOR）高級編輯

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走