- 第1節(jié) BAT搶灘大數(shù)據(jù)藍海,挖掘深層次用戶需求
-
阿里巴巴CTO王堅博士認為,人們對于云計算和大數(shù)據(jù)的理解都錯了。事實上,業(yè)界對于大數(shù)據(jù)并沒有明確的定義,而且“大數(shù)據(jù)”并不是什么新鮮詞匯。
信息革命不僅帶來了高效的信息生產、信息流通和消費,還帶來了數(shù)據(jù)的爆炸式增長。數(shù)據(jù)爆炸式增長的階段到來之后,人們發(fā)現(xiàn)傳統(tǒng)的對數(shù)據(jù)零散利用造成了對數(shù)據(jù)的浪費。在移動互聯(lián)網趨勢的影響下,數(shù)據(jù)的產生速度也在不斷地加快,人類已經意識到了數(shù)據(jù)對社會發(fā)展的重要性,并就數(shù)據(jù)挖掘達成了共識。這就是大數(shù)據(jù)的初心,即在積累數(shù)據(jù)的同時,挖掘數(shù)據(jù)所需要的計算理論、實時的數(shù)據(jù)收集和流通通道、數(shù)據(jù)挖掘過程需要使用的軟硬件環(huán)境也在一步步成長。
實踐證明,在互聯(lián)網領域,行動才是最好的詮釋。概念、模式和理論都需要在實踐中逐漸清晰明確,因為實踐才是檢驗真理的唯一標準。目前,國內互聯(lián)網三巨頭BAT,即百度、阿里、騰訊,都已經擁有了龐大的數(shù)據(jù)金礦,并陸續(xù)踏上了掘金之路。
雖然BAT都屬于大金礦主,但是這三座礦山的性質卻有巨大的不同。
數(shù)據(jù)就如同煤礦,根據(jù)性質方面的差異煤炭可以分為焦煤、無煙煤、肥煤、貧煤等種類,就算是性質相同的煤礦,露天煤礦與深山煤礦的挖掘成本也不同。因此,大數(shù)據(jù)的價值并不在“大”,而是在于“有用”。相對于數(shù)量,數(shù)據(jù)的價值含量以及挖掘成本要更為重要。
圖2-1 BAT大數(shù)據(jù)對比
百度的大數(shù)據(jù)可以分為兩種類型,一種是用戶搜索表征的需求數(shù)據(jù),另一種是爬蟲和阿拉丁獲取的公共Web數(shù)據(jù)。阿里巴巴則有交易數(shù)據(jù)和信用數(shù)據(jù),相對于百度擁有的大數(shù)據(jù),這兩種數(shù)據(jù)更容易發(fā)現(xiàn)商業(yè)價值。與此同時,阿里巴巴還運用投資、并購等方式掌握了部分社交數(shù)據(jù)和移動數(shù)據(jù),比如微博和高德地圖。騰訊的用戶數(shù)據(jù)和基于此產生的社交數(shù)據(jù)可以分析用戶的生活和行為,然后挖掘出有關政治、文化、經濟、健康等方面的信息,有時候還可以利用掌握的數(shù)據(jù)信息預測未來。
◆百度:含著數(shù)據(jù)出生,掌握數(shù)據(jù)挖掘的技術,倡導數(shù)據(jù)的研究和實際應用
百度是含著數(shù)據(jù)出生的,在搜索引擎領域擁有不可撼動的地位。不管是獲取網頁數(shù)據(jù)、對網頁內容進行組織和解析、在海量數(shù)據(jù)中進行精準搜索,還是搜索引擎的關鍵字廣告,都是一個獲取、組織、分析和挖掘數(shù)據(jù)的過程。
將所有的數(shù)據(jù)信息都掌控在自己手中,一直是百度搜索引擎的目標。因此,百度除了獲取網頁數(shù)據(jù)外,還制訂了“阿拉丁計劃1”,借以獲取第三方的數(shù)據(jù),利用業(yè)務手段與藥監(jiān)局等部門進行合作,然后獲得封閉的數(shù)據(jù)。雖然百度擁有的
1 阿拉丁計劃,百度新一代搜索引擎。阿拉丁是搜索引擎公司百度推出的一個通用開放平臺,它將接口開放給獨特信息數(shù)據(jù)的擁有者,從而解決現(xiàn)有搜索引擎無法抓取和檢索的暗網信息。核心技術和數(shù)據(jù)礦山是其他互聯(lián)網公司一直夢寐以求的,但是這些數(shù)據(jù)目前還沒有被最大限度地利用,也沒有發(fā)揮出它應有的潛能。
百度推出的百度指數(shù)和百度統(tǒng)計等產品,是進行數(shù)據(jù)挖掘的初級應用,相對于Google,百度在收集社交數(shù)據(jù)和實時數(shù)據(jù),以及數(shù)據(jù)流通轉化為數(shù)據(jù)挖掘方面有更大的發(fā)展前景,百度為此要付出的努力還有很多。
大數(shù)據(jù)時代對于搜索引擎來講,既是一種機遇,又是一種挑戰(zhàn)。機遇就在于,搜索引擎在獲取數(shù)據(jù)的方法上已經有了技術沉淀和優(yōu)勢;而挑戰(zhàn)則在于,搜索引擎會在大數(shù)據(jù)時代擁有更多的暗網數(shù)據(jù),Web化但沒有結構化的數(shù)據(jù),Web化、結構化但封閉的數(shù)據(jù)。這些挑戰(zhàn)使傳統(tǒng)的搜索引擎失去了更多的大數(shù)據(jù)。
百度還向企業(yè)提供了更多的數(shù)據(jù)和數(shù)據(jù)服務。百度與寶潔、平安等公司進行了合作,由百度向這些公司提供分析和挖掘消費者行為的服務,同時百度還利用數(shù)據(jù)結論對企業(yè)新產品的推出提供一些指導,這是一種典型的利用大數(shù)據(jù)開展的C2B模式。就像美劇《紙牌屋》男主角和導演的選拔方式一樣,通過對網絡數(shù)據(jù)挖掘之后,根據(jù)他們在網絡中的受歡迎情況選擇。
百度能夠利用大數(shù)據(jù)實現(xiàn)移動互聯(lián)網的進化,關鍵就在于要不斷進行深度學習。在大數(shù)據(jù)基礎上的機器學習能夠改善多媒體搜索和智能搜索的效果。其中的智能搜索包括語音搜索、視覺搜索和自然語言搜索等。百度的舉動還會推動移動互聯(lián)網領域具有革命性產品的產生。
盡管百度已經走在了搶占大數(shù)據(jù)的戰(zhàn)場上,但是在這方面需要完成的工作還有很多。
在收集數(shù)據(jù)方面,百度需要更多具有高價值的交易、社交和實時數(shù)據(jù)。比如說,增強百度貼吧的社交能力;將地圖服務與O2O模式進行結合,從而掌握更多的交易數(shù)據(jù);推動移動APP、穿戴式設備等數(shù)據(jù)收集系統(tǒng)的優(yōu)化升級。
為了提高數(shù)據(jù)處理能力,百度成立了深度學習研究院,對人工智能領域進行了更深入的探索,并在多媒體和中文自然語言處理方面已經取得了一些成就。另外,建設云存儲和云計算的基礎設施的工作也在逐步完成。雖然百度在深度學習方面已經有了重要的進展,但是僅僅做到這些還是遠遠不夠的,仍然有許多困惑在等待著探索者們解開。比如說,如何進行無監(jiān)督式的學習以及如何識別立體圖像等。
在數(shù)據(jù)變現(xiàn)方面,百度需要將自身擁有的數(shù)據(jù)挖掘能力、數(shù)據(jù)內容的聚合和提取能力,轉化成標準化的服務和產品,利用這些服務和產品進軍大數(shù)據(jù)領域的企業(yè)和開發(fā)者市場,而非僅僅為大型企業(yè)提供個性化和定制化的解決方案。
相對于阿里和騰訊,百度的優(yōu)勢就在于擁有龐大的數(shù)據(jù)信息、積累十多年的用戶行為數(shù)據(jù)、對自然語言的處理能力和在深度學習領域擁有的前沿研究成果。百度還是擁有最多大數(shù)據(jù)相關領域優(yōu)秀人才的公司,前段時間,百度為了招賢納士,投入五千萬挖到了在數(shù)據(jù)挖掘、自然語言處理、深度學習領域的十多位頂尖專業(yè)人才,比如Facebook科學家徐偉就是其中之一。
要想挖到最優(yōu)秀的人才,僅僅靠花錢還是遠遠不夠的,還要學會用心。對于真正的大神級人物,金錢吸引只是他們一個很小的因素,他們會更多地考慮自己的職業(yè)發(fā)展、理想以及公司的條件能否幫助自己進行研究等。徐偉在回國前就咨詢了其他從硅谷回國的工程師,他們認為在百度工作會得到最好的發(fā)展。因此,他才最終決定留在了百度。
總而言之,百度不僅擁有大數(shù)據(jù),還擁有挖掘大數(shù)據(jù)的能力,并且也在這兩個領域進行積極的探索。百度在加強未來研究和人才布局的同時,還非常重視實用性技術的開發(fā)。
◆騰訊:數(shù)據(jù)為產品所用,自產自銷
我曾經聽過一個關于騰訊的故事:
騰訊公司在1999年剛剛成立后不久,天使投資人劉曉松就向其拋出了橄欖枝,將資金注入了騰訊。原因就在于他發(fā)現(xiàn),雖然當時騰訊的規(guī)模還很小,但他們已經有了用戶運營的理念,并且其后臺有對用戶的每一個動作的詳細記錄和分析。而另一個投資人卻認為騰訊公司還很小,不應該把錢都花在數(shù)據(jù)上。但事實證明,不管是騰訊產品的生產、運營,還是騰訊游戲的崛起都離不開騰訊所擁有的數(shù)據(jù)。
騰訊QQ(簡稱“QQ”)是騰訊公司開發(fā)的一款即時通信軟件,是國內目前使用最廣泛的交流軟件,其標志是一只戴著紅色圍巾的小企鵝。騰訊就憑借QQ占據(jù)了龐大的社交大數(shù)據(jù),并在企鵝帝國中完成了對數(shù)據(jù)的制造、流通、消費和挖掘。
騰訊大數(shù)據(jù)目前在改進產品功能方面發(fā)揮了更大的價值。騰訊大數(shù)據(jù)的增值服務目前占到總收入的78.7%,電子商務業(yè)務占到了14.1%,網絡廣告收入僅占6.3%。從上面網絡廣告的比例就可以看出,騰訊的大數(shù)據(jù)在精準營銷領域還未發(fā)揮出最大的潛力,而競爭對手Google和Facebook則利用廣告賺得了高額利潤。
騰訊的運營思路重點在補齊產品,比如說打通QZONE、微信、電商等產品的后端數(shù)據(jù)。比如說,騰訊微博利用“大數(shù)據(jù)技術”為用戶提供了好友關系自動分組、自動過濾低質量信息、分類閱讀優(yōu)質信息等功能,這就是典型的利用大數(shù)據(jù)進行產品改進的思路。
如果騰訊要深入挖掘大數(shù)據(jù),先要解決好什么問題呢?對于騰訊來講,他們已經準備好了數(shù)據(jù),就只差合理的模式了。換句話說就是,要找到能夠驅動大數(shù)據(jù)利用的產品,而不是僅僅運用大數(shù)據(jù)改進自己的產品。但是從騰訊目前的發(fā)展動向來看,騰訊仍然在尋找驅動大數(shù)據(jù)利用的產品方面徘徊,馬化騰或許一直在等那個第一個吃蛋糕的人,等他們驗證出一套模式或產品,然后再進行借力。
騰訊也非常重視人才的挖掘。早在2010年Google宣布退出中國時,騰訊就花重金將Google 圖片搜索創(chuàng)始人朱會燦、Google 中國工程研究院副院長顏偉鵬以及Google 中日韓文搜索算法的主要設計者吳軍挖到了自己門下。
騰訊曾經為了研發(fā)驅動大數(shù)據(jù)的產品推出了搜搜,雖然搜搜網站耗資巨大,但最終也沒有發(fā)揮出預期的目標。后來,騰訊從Google挖掘的人才又大多回到了Google。
騰訊缺乏能夠在大數(shù)據(jù)領域進行領導的技術帶頭人,而且也不重視公關的作用。騰訊公司里的技術專家很少拋頭露面,更不會像百度和阿里那樣對技術專家進行包裝宣傳。
騰訊的技術雖然低調,但公司里卻有很強大的執(zhí)行力。曾經在騰訊公司工作的一位朋友說,為了能夠研發(fā)出新產品,公司經常進行封閉研發(fā)和技術開發(fā),當然還會有重金激勵政策。“重金之下必有勇夫”,騰訊就是憑借著制度方面的支持來保障技術的產出。此外,騰訊還與高校進行了合作,比如2010年,騰訊與清華大學合作建立了清華騰訊聯(lián)合實驗室。
如果從這上面的兩個方面來看,騰訊似乎缺乏挖掘數(shù)據(jù)的頂尖人才,但是騰訊在數(shù)據(jù)挖掘方面已經成熟,而且數(shù)據(jù)挖掘包括數(shù)據(jù)庫、統(tǒng)計學、機器學習3個方面,在學術界也已有多年的發(fā)展歷史。但是,騰訊在自然語言識別和深度學習方面還遠遠落后于百度。
總之,騰訊的大數(shù)據(jù)布局就是先補全產品,然后再打通產品后臺的數(shù)據(jù),形成一個穩(wěn)定的大數(shù)據(jù)生態(tài)圈。目前,騰訊會利用挖掘的大數(shù)據(jù)不斷對自己的產品進行改進,等后期騰訊掌握了成熟的大數(shù)據(jù)模式和產品后,就會充分利用自身的優(yōu)勢—社交關系數(shù)據(jù),進行對大數(shù)據(jù)的深入挖掘。
◆阿里:坐擁金數(shù)據(jù),未來要成立數(shù)據(jù)集市
在對外貿易蓬勃發(fā)展的商業(yè)背景下,阿里巴巴B2B憑借著為中小企業(yè)提供服務而逐漸發(fā)展起來。在淘寶和支付寶出現(xiàn)之前,阿里的發(fā)展并不依賴于技術方面的支撐。因此,業(yè)界人士將阿里評判為一個缺乏技術基因的公司。直到后來,阿里向市場上推出了淘寶、支付寶和天貓,并對海量用戶大并發(fā)量交易、海量貨架數(shù)據(jù)的管理、安全性等方面進行了嚴格規(guī)定,如此一來,阿里才實現(xiàn)了在電商技術方面的進化。但是即便如此,阿里掌握的大量數(shù)據(jù)信息仍然沒有得到最充分的利用,許多最值錢的金數(shù)據(jù)都被白白浪費了。
數(shù)據(jù)挖掘從本質上看,就是指從最原始的數(shù)據(jù)信息中發(fā)現(xiàn)價值。目前,阿里的數(shù)據(jù)產品包括數(shù)據(jù)魔方、量詞統(tǒng)計、推薦系統(tǒng)、排行榜以及時光倒流等,但這些還是相對比較簡單一點的商業(yè)智能,并沒有達到大數(shù)據(jù)階段。
隨著互聯(lián)網領域的高速發(fā)展,海量數(shù)據(jù)成為各電商平臺實現(xiàn)戰(zhàn)略轉型的重要支撐。為了應對大數(shù)據(jù)的浪潮,阿里提出了“數(shù)據(jù)、金融和平臺”戰(zhàn)略。竭盡所能地收集、挖掘和分享數(shù)據(jù)。馬云在離開阿里巴巴前,一遍遍地向外界提起“數(shù)據(jù)”兩個字,為此還有人戲稱,馬云可以改名叫Data Ma了。阿里現(xiàn)任CEO陸兆禧曾經就是阿里巴巴的CDO1。因此,陸兆禧在繼任阿里之后,也非常重視對數(shù)據(jù)的挖掘和運用,為了能夠將阿里打造成為用數(shù)據(jù)來驅動的電商帝國,阿里還成立了“數(shù)據(jù)委員會”。
2013年阿里入股新浪微博,收購友盟;2014年阿里又收購了高德地圖。阿里的這一系列舉動都充分說明,阿里在整合、利用和完善數(shù)據(jù)信息。新浪微博擁有著社交及媒體數(shù)據(jù),友盟占有移動應用數(shù)據(jù),而高德則坐擁地圖數(shù)據(jù)和線下數(shù)據(jù),因此不得不說,這都是阿里的數(shù)據(jù)及平臺戰(zhàn)略的重要部分。阿里的數(shù)據(jù)戰(zhàn)略目前由首席人工智能官(CBO)車品覺領導,并取得了一定的成績,首席技術官(CTO)王堅負責的“云”則為數(shù)據(jù)戰(zhàn)略的實現(xiàn)提供了有力的技術支持。
馬云也曾經對大數(shù)據(jù)進行過思考,他認為,信息時代的概念已經過時了。目前,能夠引領潮流的是數(shù)據(jù)時代。在信息時代,競爭是精英之間的競爭—我比別人聰明,能夠提取有用的信息,因此我成功了;而在數(shù)據(jù)時代,別人比我聰明,他們將數(shù)據(jù)交給更聰明的人來處理,一個公司所占有的數(shù)據(jù)就是公司的資產,分析數(shù)據(jù)的能力就演變成一種服務。
計算機的發(fā)展經歷了一個從象牙塔到平民再到草根的過程。大數(shù)據(jù)的發(fā)展過程大致如此,首先處在象牙塔階段,只有少數(shù)的精英公司之間才能產生競爭;到平民和草根階段之后,無論是數(shù)據(jù)的產生、流通還是挖掘,任何數(shù)據(jù)都會產生價值。而對于阿里來講,特長就是建市場,即建立一個數(shù)據(jù)交易市場。任何企業(yè)和個人都可以將數(shù)據(jù)和挖掘服務拿到市場上去交易。阿里也會將自己的電商和信用數(shù)據(jù)放在平臺上與大家共享。
有數(shù)據(jù)的人可以拿到市場上去賣,或者讓別人對數(shù)據(jù)進行分析,接受他們提供的分析服務;沒有數(shù)據(jù)的人可以到市場上去買,或者是幫別人去挖數(shù)據(jù)。
推動阿里發(fā)展的并不是技術,而是業(yè)務。阿里的技術重心主要在系統(tǒng)層面,阿里在技術領域擁有LVS開源軟件創(chuàng)始人章文嵩,以及數(shù)據(jù)牛人馮大輝等頂尖人物,阿里在并發(fā)訪問、電信級別的電商業(yè)務領域擁有強大的技術優(yōu)勢。也正是這一技術優(yōu)勢,才幫助阿里撐過了“雙十一”單日過億的訂單量。
1 CDO,Chief Data Officer的縮寫,即首席數(shù)據(jù)官。CDO主要負責根據(jù)企業(yè)的業(yè)務需求、選擇數(shù)據(jù)庫以及數(shù)據(jù)抽取、轉換和分析等工具,進行相關的數(shù)據(jù)挖掘、數(shù)據(jù)處理和分析,并且根據(jù)數(shù)據(jù)分析的結果戰(zhàn)略性地對企業(yè)未來的業(yè)務發(fā)展和運營提供相應的建議和意見。
從阿里在數(shù)據(jù)戰(zhàn)略的布局,可以看出阿里做得最多的是搭建數(shù)據(jù)流通、收集和分享的架構,而非數(shù)據(jù)挖掘。同時阿里將自己擅長的“交易”生意擴展到數(shù)據(jù)領域,讓“數(shù)據(jù)生意”成為一種時尚。
在移動互聯(lián)網的背景之下,世界正在加速數(shù)字化的發(fā)展進程,不管是人、物體、事件、時間點,還是歷史、現(xiàn)在和未來都在向網上映射。時間與空間的連接使得數(shù)字世界正在逐漸靠近虛擬的現(xiàn)實世界。挖掘大數(shù)據(jù)就是對世界的第二次感知,而BAT三巨頭已經踏上了這條路。
- 最新書評 查看所有書評
-
- 發(fā)表書評 查看所有書評
-