聯想研究院大數據總監郭煒

  很榮幸今天跟大家分享聯想在大數據方面的探索,分享大數據技術的發展趨勢和我們觀察到的一些現象。當然,也有一些聯想自己的大數據的一些實踐。最后我花一點時間給大家介紹一下聯想現在自己做的大數據的一些一體方案。

  我先給大家講講現在我們對于大數據的一些認識。因為大數據的概念其實最近都炒的非?;?,從最開始的一個階段到現在已經經歷了若干年。最開始的時候大家知道大數據來自于一個數據倉庫的概念,2000年的時候大家開始做了。那時候我把大數據的階段叫做大數據的1.0時代。主要來的都是企業內部的數據,包括現在很多企業自己說要建大數據平臺,開始做的第一階段這些事情,沒有用到真的大數據用的非結構化數據、網絡日志這些東西。

  2006-2010年之間,互聯網開始蓬勃發展,這時候像BAT他們開始發展起來,我把它叫做Web2.0時代。大數據已經從原來過去企業里面自己拿的交易數據,現在像阿里、百度看到猜你喜歡,做一個搜索,其實它背后是基于大家在行為瀏覽的這些日志,我把它叫做Web2.0時代。

  現在這個階段整個大數據偏向第三代,已經進入IOT和O2O時代,里面數據來源不僅僅是網絡上面的點擊流,真正變得人們在線下的行為軌跡流?,F在很多智能WIFI,各種各樣的廠商都在做。他是跟蹤你,在你線下各種各樣行為,把這個行為根據你的硬件信號傳感信號給我,變換成他背后的行為軌跡。過去大家在鼠標點擊大數據,現在變成行為軌跡大數據?,F在還有很多各種各樣的視頻,音頻,你的對話所有這些他的數據在這個時代里面算法可以傳到你說的哪些話,你的線下行為軌跡是怎樣的,這些變成新的大數據了。

  這里有一個例子給大家,第一個例子這是我的個人畫像,Web個人畫像你買了什么東西,線上瀏覽了什么,買哪些商品,瀏覽哪些網頁。這些是我做的跟大家每一個線下軌跡的個人畫像,里面是專門看電影的地方。其實這就是根據一個智能設備,把他的地面信號變成可解釋的人員標簽,再通過大數據算法把我自己在線下行為軌跡描述出來。同時再把我們其他的這些通過新的智能設備再畫出來,發現又不一樣。我經常跟我女朋友在一些店里買東西。大家看到這些行為軌跡的時候,已經不是過去大家只是在線上拿鼠標點出來的,真的是我在線下隨著我逛每一個商店,在里面購物,做線下體驗的時候他出來的東西。他其實有比較大的變化,我們真的把過去大家線上行為,現在能把大家線下行為捕捉、描述出來。整個趨勢來看,能看到過去的時候我們大數據離消費者還是比較遠,全都是數據采集一些數據,采集完了之后做報表和決策。到了Web2.0時代就是猜你喜歡,作為廣告推薦。第三階段就是跟消費者非常近,現在一些新的IOT的智能設備穿戴在身上,能給消費者提供此時此刻地你需要的東西是什么。整個數據業務影響來講,是由弱變得越來越強,現在本身能產生新的業務出來。

  除了這三個時代之外,下一個時代是什么?我也不知道,等這些數據把你描述很清楚了之后,智能達到新的階段的時候,可能真的變成智能設備告訴你什么事情,做一個反饋。這個是大數據和技術方案的結合,為什么這么說?有這樣幾個趨勢,過去的時候大家知道第一階段的大數據都是企業內部產生,內部產生的數據都是在所謂企業內網里面,這些放到云上還是有一點點擔心?,F在不一樣了,現在所有智能設備都是從互聯網采集,也可以存到互聯網上。對很多企業,他的戒心來講好一些。

  第二是提到數據挖掘,為什么把這個單獨提出來?新的IOT時代,大家拿的數據流不是點擊流,是硬件的信號流,怎么把這個信號流轉化為有用的信息。有非常強大的數據挖掘算法支持,不是哪個企業都能有這樣的比較完善的數據挖掘團隊支持他這種挖掘的轉換,一定需要專業團隊。專業團隊是他給每個企業做相關服務,數據挖掘服務提升已經不是每個企業自己能夠完成,他需要第三方。同樣也是開源平臺,雖然現在各種各樣都有,其實要真的想把一個開源軟件用好,對每個企業來講還是有門檻。對互聯網企業來講開源平臺比較方便,每個企業自己建大平臺,你要買軟件,相關后期開發維護,招一些用大數據挖掘的人非常困難,不如把這些東西變成云的服務,放大云端,他把它的應用給你做一個相關的服務。你就可以不用去自己去招這樣的人才,每個企業現在招聘這樣的人很困難。大數據比較火熱,過去大家知道數據相當大,不安全??梢园涯愕臄祿鲆粋€處理、解壓的過程,還有自然語言和爬蟲。做各種各樣的輿情,每個企業做輿情分析。云端有一個地方把相關網頁爬好,你做好分析。

  因為大家都說過去在大數據3.0時代來臨之前,企業內部有自己的數據孤島,但其實等大家把自己企業內部數據孤島打通之后,大家再看這個企業,對消費者來講這個企業本身成為一個新的孤島。他只了解消費者其中一部分的信息,他對消費者更好的推薦和幫助,他存在一個聯盟和交換的過程。這樣的過程,怎樣去交換?他不能在自己的企業做交換,他只能第三方提供這樣服務。由于這樣幾點,我認為大數據和云將來會有一個非常緊密的結合,這是我判斷的一個技術的趨勢。

  對于大數據來講,開源還是非開源,經常有一些這樣的討論。我個人觀點對于大數據來講,這個要擁抱開源。對于大數據信息技術來講,不斷在發展。他自己沒有一個定論說大數據今天就是過去的ORPP的數據一樣,這樣的東西就是最佳實踐??梢赃m用于各種各樣的場景,其實不是。過去兩年做大數據一定要做Hadoop,這兩年的時候大家一看多個社區增長沒有那么快,成為一個企業標配。是不是要經過新的Sbace(音)呢,上面新的功能和插件用哪些?大數據本身的需求和業務沒有確定性,如果一個企業沒有用開源的組件做相關的東西,可能多則五年,少則兩三年,離大數據的應用越來越遠,有些業務無法開展。我的觀點來看,擁抱開源是對大數據的整個技術框架和技術框架里面,是一個比較好的模式。

  往后看我會看到大數據能夠分出好幾個層次出來,我分四層次:第一是做技術服務,云化可以做成SaaS、IaaS平臺。再往上開始做數據服務,不僅提供硬件,往上還有PaaS服務,大數據能夠方便的采集、展示、處理、挖掘。有了這個平臺之后上面還需要有一層,上面數據產生一些價值還是要做一些分析,有些做的比較好,基于這些數據都有,上面模型怎么把這個數據解決實際的問題,這個其實現在在國內這塊恐怕也蠻大的。

  在網上真的是一個業務服務,真的幫助企業業務做營銷。這里沒提到互聯網的企業,我把它放到這樣的位置。這些企業像阿里就比較厲害,他從下到上幾乎都有他的覆蓋的區域,在咱們企業相關的合作商也能看到他在這塊跟我們做合作。百度偏底層一些,他在底層存儲、云化,大數據平臺服務有一些。騰訊基本上是更偏上一些,他基本上在最終的營銷和互動更多一些。這是我自己觀察的大數據的格局和看法。

  這樣的格局下,我看到另外一個趨勢,這個和名字有點像。大國、大數據、大時代。中國在大數據國際化進程當中崛起,為什么這樣講?我舉個例子,Hadoop大家知道,所謂大數據最開始先用Hadoop平臺。這個社區里面,中國人在里面可能就5%到6%參與。剛才提到內存計算,基于Spark社區,大家再看里面貢獻里面多一半都是中國人。這些趨勢證明我們過去應約上面有所探索,真正底層技術上面中國還不如美國?,F階段不一樣了,我們在國際化社區里面中國貢獻者越來越多,隨著華為、聯想、BAT等等這些廠商的相關技術人員不斷參與。中國在開源社區里面也是花錢越來越強。

  我昨天看到新的比較好的消息,在社區里面金牌項目已經出現了,我們核心技術國外領先,我們慢慢參與其中,下一個國際化火熱的平臺是中國領先,中國在整個國際化上大數據的聲音更強。

  第二點我們和國際公司交流的時候,大家做工作分析的時候,整體大的分析方向上面,中國和國外企業的大數據分析的水平已經差不太多了。他會大方向的分析包括一些應用上的分析。具體深入到每一個數據是否能夠追問,數據驅動你在管理上數據的理念沒有美國這么強。大的方向和整個分析內容來講,基本上已經成為和領頭人的是同一個領域。

  第三點現在雖然說大數據的人才都是匱乏,每個公司都缺大數據人才。我們的觀點來看,中國和美國相比,中國在投身大數據研發人員基數很大。舉個例子我們在美國招相關的數據研發人員,可能招半年都很難招。中國肯定在這方面一定能找到人,美國在大數據方面基數人口不多,這方面細分的人更少。中國的人口優勢的紅利變成技術人口的紅利,這方面來講我覺得在中國也是一個在發展的過程。

  第四現在大家知道國家發布的包括國務院出的相關批文,促進大數據相關建設和創新,這方面有各種各樣在大數據創新的野蠻生長的廠商非常多。大家在這方面創新,無形之中推動中國在大數據產業上面的提升。

  最后一點我提到現在中國其實有很多地方都是做大數據的技術輸出,還不是中國的企業,都是硅谷的企業賣三四套都是美國賣出去的。這樣來看,中國在未來大數據國際化的領域里面,他是越來越崛起,可能未來能夠成為在這個領域里面,中國可能會成為領頭羊。

  中國在大數據里面發展這么快,是不是很完整?我看到不是。中國在技術上還是做的不錯,整個標準化和治理方面還是缺很大一部分。今天早上我們和一些專家聊的時候發現,很多企業現在提出要建大數據平臺,我的理解他現在想做3.0的時候,他自己的數據還沒做好。流程怎么樣輸入,數據從哪里來到哪里去。大數據來臨的時候數據更多,那就更亂了。包括目前做的時候,我們看中國和美國的開放性來看,發現美國那邊分不同的行業,不同的企業,整個規范度非常高。中國在這方面還是慢慢積累,大家看到我們國家的大數據平臺,美國我們看到一個企業里面投訴能明晰到每一條投訴,中國還做不到,很多數據標準化的過程正在進行。我很高興看到最近有很多在研究領域,包括學校里面開始開設數據標準研究方向。中國在這方面也能夠很快的改善。

  最后一塊,我現在也是跟大家提說大數據來干嘛。大數據已經變成3.0的時候,已經不是過去做相關推薦了。未來大數據最終出口就是這些智能硬件,也許是AR/VR+AI。真的他已經了解到你在線下各種各樣的行為,觀察到你所看到的東西。他已經非常理解你能干什么,最終通過他的AI的東西給你做一些新的東西的推薦。這是將來未來的大數據的出口的方向。

  后面我給大家講講聯想在大數據方面探索,先講講聯想自己怎么做探索。

  聯想本身做一個全球的企業,他自己用整個大數據平臺做客戶為中心的轉化。其實分了幾個部分。在品牌感知這塊,其實聯想是用自然語言和大數據看現在監控全球7、8種不同的語言,監控上千個不同網站,對聯想自己所有的設備,2C、2B的設備,有服務器,大家用的電腦、手機,這些他能看到究竟大家怎么評論聯想自己的產品。這聯想在內部給相關產品經理,我們對聯想某一款產品的優點和缺點是什么,優點好在哪里,差在哪里。優點大家覺得屏幕好還是屏幕不好,好是因為大小好還是分辨率不好?分辨率太高還是太低。中國區這部分是來自各種各樣電商網站,亞馬遜、京東、淘寶、國美、1號店等等。這個如何如何,有一個評論。評論以后,通過自然語言技術,完全能夠理解你的評論說的是什么,每句話究竟說了哪些東西,這是從品牌感知探討。

  產品選擇的時候,聯想現在去門店的時候,有接近八千家門店用于智能化的設備。大家看到開機每個電腦上面投放廣告都是個性化。這些東西能夠引導大家在產品選擇的時候作出相應的決策。還有電商網站都是什么樣,做相關推薦等等,產品使用后面像摩托手機這個地方,有一些能夠幫助大家出現問題的時候,幫你解決這些問題,后面也會詳細介紹。

  服務的時候,我們會通過自然語言的大數據的方式,能知道我們這個用戶投資熱點在哪里?通過語音和文字的方式,用戶關注什么,哪些幫助我們提升更好的下一代的東西。包括業務創新,我們看到技術論壇跑的最熱的東西。下一塊我們的摩托手機4核變8核,這是我們做的創新和探索。這個例子是摩托的例子,根據大家的使用手機的情況,把手機當成功能機,有當成辦公,有人拿它當游戲機,這樣能夠讓大家知道真的產品經理看到下一代我們手機怎么設計,展現出新的更有強大的手機。做成游戲型還是什么樣的,幫助企業做一些相關的決策。這是線下門店,每一個門店的經營情況,客流情況,樣機展出情況,現在在中國直接拿微信就可以做相關的管理,這是聯想自己的一些內容。同時像內部IP管理的時候,聯想從交換機上面拿到網絡交換的數據流,聯想全球內部IP網絡交換的情況以及他實時能看到擁塞的時候究竟哪個店出現擁塞,擁塞是怎么產生?大家可以去參觀。包括聯想推薦的應用,大家知道聯想有自己的推薦看什么樣的影片,有一個比較高的概率。

  這里給大家分享一下未來互聯網+下的大數據平臺方向,易用性,像使用自來水一樣的使用大數據。你把東西拖上去,不需要做太多的工作,就能把大數據做起來,能夠降低整個企業使用大數據的門檻。

  第二通用性,大部分做大數據的企業過去是做BI,可以復用長期培養的BI人才與技術儲備。

  第三是高效性,執行效率要非常高。聯想有這樣的套件,你裝上去以后,整個后面不用關心這個數據怎么來,怎么存,怎么展現,他把底層到上層所有事情做好。高效的時候目前聯想+,還有內存計算社區,非常高效的計算,把運維這塊的部署和監控做出來。

  還有開放,我們參加了社區,有兩個功能去也是用聯想的社區的內容。后面我們也會一直持續不斷的幫助社區不斷提高他的東西,也會跟著社區一同往前發展。

  最后是擴展性,看到無論是外部數據還是交易數據,可以做一些相關分析。大家可以去我們展臺做相應的了解。

  今天我給大家就介紹這么多,謝謝大家。

未經允許不得轉載:存儲在線-存儲專業媒體 » 郭煒:大國、大數據、大時代
分享到

wangky

存儲在線(DOSTOR)高級編輯

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走