- 第2節(jié) 第二章
-
數(shù)據(jù)體量大:大數(shù)據(jù)一般指在10TB 規(guī)模以上的數(shù)據(jù)量。但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB 級的數(shù)據(jù)量。
數(shù)據(jù)多樣性:數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已經(jīng)沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
價值密度低:大數(shù)據(jù)所創(chuàng)造的價值密度明顯更低。根據(jù)福利經(jīng)濟(jì)學(xué)的觀點(diǎn),生產(chǎn)率與單位商品的價值無關(guān),生產(chǎn)率只與生產(chǎn)的數(shù)量有關(guān),即生產(chǎn)率高的企業(yè)在相同的時間內(nèi)生產(chǎn)更多的價值——因而可以把更高的生產(chǎn)率理解為通過生產(chǎn)和管理技術(shù)的革新而形成的更高的勞動復(fù)雜度,勞動復(fù)雜度的提高使單位勞動時間具有了更大的價值密度。
速度快:有數(shù)據(jù)顯示,在全球范圍內(nèi),數(shù)據(jù)量以每年 50%的速度增長,數(shù)據(jù)增長的速度已經(jīng)遠(yuǎn)遠(yuǎn)超過IT 設(shè)計(jì)發(fā)展的速度。數(shù)據(jù)本身已經(jīng)成為企業(yè)發(fā)展的資產(chǎn)?焖俨蹲綌(shù)據(jù)信息,實(shí)現(xiàn)數(shù)字化生產(chǎn)和管理,已經(jīng)成為未來企業(yè)贏得市場,應(yīng)對行業(yè)互聯(lián)網(wǎng)化的必經(jīng)之路。
另外,從“數(shù)據(jù)”這個詞來分析,大數(shù)據(jù)是海量的,是巨大的,它關(guān)乎數(shù)據(jù)量。筆者認(rèn)為可以從3 個方面定義大數(shù)據(jù):(1)數(shù)據(jù)量;(2)廣度、分類;(3)速度。簡而言之,大數(shù)據(jù)就是一個體量特別大,數(shù)據(jù)類別特別豐富的數(shù)據(jù)集。也就是說“大數(shù)據(jù)”本身并不是一種新的技術(shù),也不是一種新的產(chǎn)品,而是我們這個時代出現(xiàn)的一種現(xiàn)象。而這個“大”
大到了一種什么樣的程度呢?可以說它即將突破現(xiàn)有常規(guī)軟件所能提供的能力極限。
綜上所述,全球最大的戰(zhàn)略咨詢公司麥肯錫給出了一個十分明確的定義:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。
隨著互聯(lián)網(wǎng)革命性地改變了商業(yè)的運(yùn)作模式、政府的管理方法以及人們的生活方式,信息的積累足以引發(fā)新的變革。世界充斥著比以往更多的信息,信息總量的變化導(dǎo)致了信息形態(tài)的變化!按髷(shù)據(jù)”這一概念應(yīng)運(yùn)而生!按髷(shù)據(jù)”不同于互聯(lián)網(wǎng),它正在以巨大的力量改變著世界,它是具有更強(qiáng)的決策力、洞察力、流程優(yōu)化能力、高增長率和多樣化的信息資產(chǎn)。
如今,數(shù)據(jù)庫、大數(shù)據(jù)已經(jīng)成為變革的中心,事實(shí)上可以成為一場革命。在IT 領(lǐng)域、制造業(yè)、零售業(yè)、政府管理、科技領(lǐng)域,大數(shù)據(jù)都在改變著這個世界的運(yùn)行方式。因此,我們稱之為大數(shù)據(jù)的新世界。
專 家 提 醒
數(shù)據(jù)基本單位換算:
1B(byte,字節(jié))=8b(bit 位)
1KB(Kilobyte,千字節(jié))=1024B
1MB(Megabyte,百萬字節(jié)兆字節(jié),簡稱“兆”)=1024KB
1GB(Gigabyte,十億字節(jié)吉字節(jié),又稱“千兆”)=1024MB
1TB(Trillionbyte,萬億字節(jié)太字節(jié))=1024GB
1PB(Petabyte,千萬億字節(jié)拍字節(jié))=1024TB
1EB(Exabyte,百億億字節(jié)艾字節(jié))=1024PB
1ZB(Zettabyte,十萬億億字節(jié)澤字節(jié))=1024EB
1.1.2 大數(shù)據(jù)結(jié)構(gòu)特征
如今,全球存儲的數(shù)據(jù)量正在急劇增長,數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。在2000
年,全球存儲了800000PB 的數(shù)據(jù)。預(yù)計(jì)到2020 年,這一數(shù)字會達(dá)到35ZB。單單Twitter
每天就會生成超過7TB 的數(shù)據(jù),F(xiàn)acebook 為10TB,一些企業(yè)在一年中每一天的每一小時就會產(chǎn)生數(shù)TB 的數(shù)據(jù)。
就傳統(tǒng)IT 企業(yè)來看,其結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)增長也是驚人的。2005 年企業(yè)存儲的結(jié)構(gòu)化數(shù)據(jù)為4EB,到2015 年將增至29EB,年復(fù)合增長率逾20%。非結(jié)構(gòu)化數(shù)據(jù)發(fā)展更猛。2005 年為22EB,2015 年將增至1600EB,年復(fù)合增長率約60%,遠(yuǎn)遠(yuǎn)快于摩爾定律。
那么,一分鐘到底會有多少數(shù)據(jù)產(chǎn)生呢?
電子郵件用戶發(fā)送204166677 條信息。
Google 收到超過2000000 個搜索查詢。
Facebook 用戶分享684478 條內(nèi)容。
消費(fèi)者在網(wǎng)購上花費(fèi)272070 美元。
Twitter 用戶發(fā)送超過100000 條微博。
蘋果公司收到大約47000 個應(yīng)用下載。
Facebook 上的品牌和企業(yè)收到34722 個“贊”。
Tumblr 博客用戶發(fā)布27778 個新帖子。
Instagram 用戶分享36000 張新照片。
Flickr 用戶添加3125 張新照片。
Foursquare 用戶執(zhí)行2083 次簽到。
571 個新網(wǎng)站誕生。
WordPress 用戶發(fā)布347 篇新博文。
由于數(shù)據(jù)自身的復(fù)雜性,作為一個必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(Massively Parallel Processing,MPP),這使得并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來處理和分析。
大數(shù)據(jù)的結(jié)構(gòu)就體現(xiàn)了它最突出的特征,如表1-1 所示,顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長趨勢。據(jù)悉,未來數(shù)據(jù)增長的80%~90%將來自于非結(jié)構(gòu)化的數(shù)據(jù)類型
(包括半非結(jié)構(gòu)化、準(zhǔn)非結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))。
1.1.3 大數(shù)據(jù)與云計(jì)算
在過去3 年當(dāng)中,筆者經(jīng)歷了大數(shù)據(jù)的發(fā)展從無到有,3 年前可能還沒有人說這個詞,現(xiàn)在已經(jīng)如火如荼,F(xiàn)在,每天有大量數(shù)據(jù)和信息生成,這為大數(shù)據(jù)分析提供了機(jī)會。相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)更能反映這個世界的真實(shí)情況,例如,人們會上傳和公布大量的圖片來記錄個人的生活和社會的變化。如今,一天之內(nèi)人們上傳的照片數(shù)量就相當(dāng)于柯達(dá)發(fā)明膠卷之后拍攝的圖像總和。
過去,計(jì)算機(jī)主要是用于解決大企業(yè)交易型的數(shù)據(jù),并不會記錄其他無關(guān)的信息,只有在云計(jì)算產(chǎn)業(yè)規(guī);l(fā)展之后,分布式計(jì)算才給大數(shù)據(jù)提供了記錄的載體?梢哉f,云計(jì)算使大數(shù)據(jù)變成可能,打個比方,云計(jì)算充當(dāng)了工業(yè)革命時期“發(fā)動機(jī)”的角色,而大數(shù)據(jù)則是“電”。
然而,現(xiàn)在除了數(shù)據(jù)本身發(fā)生了改變,云計(jì)算也使數(shù)據(jù)變得更加分散,在這樣的趨勢下,傳統(tǒng)數(shù)據(jù)庫對于海量數(shù)據(jù)存儲的需求、處理速度的需求、數(shù)據(jù)多樣化的需求難以滿足,從而使各種各樣的解決方案大行其道。
總之,云計(jì)算為大數(shù)據(jù)帶來了硬件存儲的條件——更便宜的分布式運(yùn)算存儲,而互聯(lián)網(wǎng)時代的今天也在不斷呼喚數(shù)據(jù)應(yīng)用和服務(wù)。在技術(shù)和需求的雙重推動下,會有越來越多的政府機(jī)構(gòu)、公司企業(yè)和個人意識到數(shù)據(jù)是巨大的經(jīng)濟(jì)資產(chǎn),像貨幣或黃金一樣,它將帶來全新的創(chuàng)業(yè)方向、商業(yè)模式和投資機(jī)會。
大數(shù)據(jù)和云計(jì)算的區(qū)別與聯(lián)系如表1-2 所示。
專 家 提 醒
云計(jì)算和大數(shù)據(jù)注定將帶來一次革命,無論是對社會、公司和個人來說,都是一次世界觀的改變。屆時,互聯(lián)網(wǎng)不再是一個展示公司的工具或平臺,而是屬于未來的生產(chǎn)方式,是關(guān)乎競爭和生存的關(guān)鍵。
1.1.4 大數(shù)據(jù)規(guī)模預(yù)測
當(dāng)你走進(jìn)一家陌生的小餐廳時,耳邊響起只有你才熟悉的音樂旋律。這樣的場景實(shí)現(xiàn)技術(shù)上并不難,餐廳只要讀出你的手機(jī)音樂下載記錄,通過數(shù)據(jù)分析,就可以定制播放你喜歡的音樂,這就是大數(shù)據(jù)時代的潛力。
前面筆者已經(jīng)說了,大數(shù)據(jù)由4 個V 組成,這4 個V 的組合推動了第5 個因素——價值(Value)的出現(xiàn)。隨著云計(jì)算概念日漸深入人心,大數(shù)據(jù)也越來越受到關(guān)注。國際知名數(shù)據(jù)公司IDC 在長期對云計(jì)算市場進(jìn)行跟蹤研究的同時,也對大數(shù)據(jù)市場保持著密切關(guān)注。如圖1-6 所示,IDC 發(fā)現(xiàn),目前大數(shù)據(jù)對市場的影響正日益提升,已經(jīng)開始影響數(shù)據(jù)中心設(shè)計(jì)、移動應(yīng)用投資、數(shù)據(jù)管理等相關(guān)領(lǐng)域。
圖1-6 IDC 全球大數(shù)據(jù)市場規(guī)模與預(yù)測
1.1.5 大數(shù)據(jù)的發(fā)展史
如今,越來越多的企業(yè)參與到大數(shù)據(jù)的競爭中來,那么“大數(shù)據(jù)”這個詞匯是如何誕生以及演變的呢?
大數(shù)據(jù)是一個修辭學(xué)意義上的詞匯,在數(shù)據(jù)方面,“大”(big)是一個快速發(fā)展的術(shù)語。早在1890 年,美國統(tǒng)計(jì)學(xué)家赫爾曼·霍爾瑞斯為了統(tǒng)計(jì)這一年的人口普查數(shù)據(jù),發(fā)明了一臺電動器來讀取卡片上的數(shù)據(jù),該設(shè)備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀(jì)元。
1961 年,剛成立9 年的美國國家安全局(NSA)是擁有超過12000 個密碼學(xué)家的情報(bào)機(jī)構(gòu),在間諜飽和的冷戰(zhàn)年代,面對超量信息,他們開始采用計(jì)算機(jī)自動收集處理信號情報(bào),并努力將倉庫內(nèi)積壓的模擬磁帶信息進(jìn)行數(shù)字化處理。僅1961 年7 月份,該機(jī)構(gòu)就收到了17000 卷磁帶。
起初,許多科學(xué)家和工程師都嘲笑“大數(shù)據(jù)”只不過是一個營銷術(shù)語。2008 年末,“大數(shù)據(jù)”得到部分美國知名計(jì)算機(jī)科學(xué)研究人員的認(rèn)可,業(yè)界組織“計(jì)算社區(qū)聯(lián)盟”(Computing Community Consortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計(jì)算》,中肯地闡述了大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn)。
2009 年5 月,美國總統(tǒng)巴拉克·奧巴馬政府推出data.gov 網(wǎng)站,作為政府開放數(shù)據(jù)計(jì)劃的部分舉措。該網(wǎng)站擁有超過4.45 萬的數(shù)據(jù)量集,這樣一些網(wǎng)站和智能手機(jī)應(yīng)用程序能跟蹤如航班、產(chǎn)品召回、特定區(qū)域內(nèi)失業(yè)率等信息,這一行動激發(fā)了肯尼亞、英國等政府相繼推出類似舉措。
2011 年2 月,掃描2 億頁的頁面信息,或4 兆兆字節(jié)磁盤存儲,只需幾秒即可完成。同時,IBM 的沃森計(jì)算機(jī)系統(tǒng)在智力競賽節(jié)目《危險邊緣》中打敗了兩名人類挑戰(zhàn)者,后來《紐約時報(bào)》稱這一刻為“大數(shù)據(jù)計(jì)算勝利”的時刻。
2011 年,英國《自然》雜志曾出版專刊指出,倘若能夠更有效地組織和使用大數(shù)據(jù),人類將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù),這對社會發(fā)展有巨大的推動作用。
2012 年3 月,美國政府報(bào)告要求每個聯(lián)邦機(jī)構(gòu)都要有一個“大數(shù)據(jù)”的策略,作為回應(yīng),奧巴馬政府宣布了一項(xiàng)耗資兩億美元的大數(shù)據(jù)研究與發(fā)展項(xiàng)目。
2012 年7 月,美國國務(wù)卿希拉里·克林頓宣布了一個名為“數(shù)據(jù)2X”的公私合營企業(yè),用來收集統(tǒng)計(jì)世界各地的婦女和女童在經(jīng)濟(jì)、政治和社會地位方面的信息。
回顧過去的50 多年,我們可以看到IT 產(chǎn)業(yè)已經(jīng)經(jīng)歷了幾輪新興和重疊的技術(shù)浪潮,如圖1-7 所示。這里面的每一波浪潮都是由新興的IT 供應(yīng)商主導(dǎo)的,他們改變了已有的秩序,重新定義了已有的計(jì)算機(jī)規(guī)范,并為進(jìn)入新時代鋪平了道路。
圖1-7 IT 產(chǎn)業(yè)的發(fā)展浪潮
人們手中的手機(jī)和移動設(shè)備是數(shù)據(jù)量爆炸的一個重要原因,目前,全球擁有 50 億臺手機(jī)用戶,其中20 億臺為智能電話,這相當(dāng)于20 世紀(jì)80 年代20 億臺IBM 的大型機(jī)掌握在消費(fèi)者手里。
“大數(shù)據(jù)”是“數(shù)據(jù)化”趨勢下的必然產(chǎn)物。數(shù)據(jù)化最核心的理念是:“一切都被記錄,一切都被數(shù)字化”。它帶來了兩個重大的變化:一是數(shù)據(jù)量的爆炸性劇增,最近兩年所產(chǎn)生的數(shù)據(jù)量等同于2010 年以前整個人類文明產(chǎn)生的數(shù)據(jù)量總和;二是數(shù)據(jù)來源的極大豐富,形成了多源異構(gòu)的數(shù)據(jù)形態(tài),其中非結(jié)構(gòu)化數(shù)據(jù)所占比重逐年增大。
1.1.6 大數(shù)據(jù)技術(shù)架構(gòu)
即便是在“摩爾定律”,即每18 個月芯片性能將提高1 倍的支撐下,硬件性能進(jìn)化的速度也早已趕不上數(shù)據(jù)增長的速度了,并且差距越來越巨大。例如,一分鐘之內(nèi),新浪微博有數(shù)萬條微博發(fā)送,蘋果應(yīng)用商店下載次數(shù)以萬計(jì),淘寶賣出了幾萬件商品,百度產(chǎn)生了百萬次搜索查詢……所有這些行為都由海量的數(shù)據(jù)來呈現(xiàn)。
那么,大數(shù)據(jù)是通過什么樣的技術(shù)架構(gòu)來接受、容納并處理這些海量數(shù)據(jù)的呢?
要容納數(shù)據(jù)本身,IT 基礎(chǔ)架構(gòu)必須能夠以經(jīng)濟(jì)的方式存儲比以往更大量、類型更多的數(shù)據(jù)。此外,還必須能適應(yīng)數(shù)據(jù)速度,即數(shù)據(jù)變化的速度。數(shù)量如此大的數(shù)據(jù)難以在當(dāng)今的網(wǎng)絡(luò)連接條件下快速來回移動。大數(shù)據(jù)基礎(chǔ)架構(gòu)必須具有分布式計(jì)算能力,以便能在接近用戶的位置進(jìn)行數(shù)據(jù)分析,減少跨越網(wǎng)絡(luò)所引起的延遲。
因此,云計(jì)算模式為大數(shù)據(jù)的成功提供了很好的條件,以實(shí)現(xiàn)大數(shù)據(jù)分析所需的效率、可擴(kuò)展性、數(shù)據(jù)便攜性和經(jīng)濟(jì)性。另外,還可以用來跨越毫不相干的數(shù)據(jù)源比較不同類型的數(shù)據(jù)和進(jìn)行模式匹配。這使得大數(shù)據(jù)分析能以新視角挖掘企業(yè)傳統(tǒng)數(shù)據(jù),并帶來傳統(tǒng)上未曾有過的數(shù)據(jù)洞察力。
例如,LinkedIn 是世界上最大的專業(yè)人士社交網(wǎng)絡(luò),在全球范圍內(nèi)有2.25 億用戶,并且以每秒2 個新用戶的速度增長。LinkedIn 還是一個解決方案供應(yīng)商,據(jù)悉,目前有88%的財(cái)富100 強(qiáng)企業(yè)在使用LinkedIn 的付費(fèi)解決方案,LinkedIn 還有超出290 萬的公司主頁及相關(guān)信息。
LinkedIn 之所以取得如此大的成功,是因?yàn)樗麄冇袑I(yè)的身份可以拓展人脈發(fā)現(xiàn)機(jī)遇,專業(yè)的內(nèi)容全方位掌握業(yè)界資訊,專業(yè)的平臺隨時隨地了解人脈動向。
從LinkedIn 的業(yè)務(wù)模型不難看出,其本身就擁有海量的數(shù)據(jù),通過這些數(shù)據(jù)創(chuàng)造出有價值的產(chǎn)品和服務(wù),來增加用戶數(shù)量和用戶黏性,這樣數(shù)據(jù)還會不斷增長從而形成一個“閉環(huán)”。LinkedIn 有人才、市場、高級訂閱服務(wù)三大商業(yè)解決方案,而且三大商業(yè)解決方案的盈收每年也呈翻倍增長趨勢,而其中占盈收比例最大的是人才解決方案。
另外,LinkedIn 的數(shù)據(jù)按用戶可分為用戶特征數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶網(wǎng)絡(luò)數(shù)據(jù);按數(shù)據(jù)存取速度可分為在線數(shù)據(jù)、近線數(shù)據(jù)、離線數(shù)據(jù)。LinkedIn 的三級數(shù)據(jù)架構(gòu)根據(jù)不同性質(zhì)的工作設(shè)計(jì),其中近線數(shù)據(jù)存儲在Voldemort 分布式數(shù)據(jù)庫中,在線數(shù)據(jù)存儲在Oracle 和Espresso 中,服務(wù)器日志存儲在Web Logs 中。使用Kafka 發(fā)布數(shù)據(jù),通過Databus 捕獲在線數(shù)據(jù),而所有的離線數(shù)據(jù)由Hadoop 和Teradata 數(shù)據(jù)庫構(gòu)成。
基于上述考慮,大數(shù)據(jù)可以采用四層堆棧式技術(shù)架構(gòu),如表1-3 所示。
表1-3 采用四層堆棧式技術(shù)架構(gòu)的大數(shù)據(jù)
專 家 提 醒
云模型鼓勵訪問數(shù)據(jù)并提供彈性資源池來應(yīng)對大規(guī)模問題,其解決了如何存儲大量數(shù)據(jù),以及如何積聚所需的計(jì)算資源來操作數(shù)據(jù)的問題。在云中,數(shù)據(jù)可跨多個節(jié)點(diǎn)調(diào)配和分布,這使得數(shù)據(jù)更接近需要它的用戶,從而縮短響應(yīng)時間和提高生產(chǎn)率。
1.1.7 大數(shù)據(jù)重要的理由
人們?yōu)槭裁慈绱岁P(guān)心大數(shù)據(jù)呢?其實(shí)大數(shù)據(jù)可以使我們提出新問題,來了解我們的業(yè)務(wù)。例如社交網(wǎng)絡(luò)分析,一個企業(yè),即使你是一個個體,你也有一個品牌,如何分析你的品牌影響力、品牌聲譽(yù),這些問題之前不容易回答,如今在大數(shù)據(jù)的時代可以很容易得到答案,并且?guī)缀跏且詫?shí)時的速度來解答。
例如,有一家物流公司,有卡車等運(yùn)輸工具,希望優(yōu)化車隊(duì)的運(yùn)輸路線,提高運(yùn)輸效率,并且基于實(shí)時的交送信息、天氣信息及其他類型的信息,F(xiàn)在通過傳感器和大數(shù)據(jù)就可以做到。事實(shí)上,關(guān)于過去和現(xiàn)在,甚至是未來的事務(wù),大數(shù)據(jù)分析都能夠用得上。
專 家 提 醒
雖然大數(shù)據(jù)是一個重大問題,但筆者認(rèn)為,真正的問題是如何讓大數(shù)據(jù)更有意義,如何在大數(shù)據(jù)里面尋找模式幫助組織機(jī)構(gòu)做出更好的商業(yè)決策。
當(dāng)前,隨著互聯(lián)網(wǎng)科技的日益成熟,各種類型數(shù)據(jù)的增長將會超越歷史上任何一個時期。因此,用戶想要從這龐大的數(shù)據(jù)庫中提取對自己有用的信息,就離不開大數(shù)據(jù)分析技術(shù)和工具。如表1-4 所示,向大家展示了大數(shù)據(jù)分析將越來越重要的10 個理由。
表1-4 大數(shù)據(jù)分析為何重要的理由
專 家 提 醒
對大企業(yè)而言,大數(shù)據(jù)的興起,首先,是因?yàn)橛?jì)算能力可以更低的成本獲得,且各類系統(tǒng)如今已能夠支持多任務(wù)處理;其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù);最后,把計(jì)算機(jī)聚合成服務(wù)器集群越來越簡單。
1.1.8 大數(shù)據(jù)的解決方案
當(dāng)前,越來越多的企業(yè)將大數(shù)據(jù)的分析結(jié)果作為其判斷未來發(fā)展的依據(jù)。同時,傳統(tǒng)的商業(yè)預(yù)測邏輯正日益被新的大數(shù)據(jù)預(yù)測所取代。既然大數(shù)據(jù)如此重要,那么大數(shù)據(jù)解決方案是否可以完全替代傳統(tǒng)的數(shù)據(jù)庫解決方案呢?
在這里,筆者先不說出答案,而是先帶大家看一個典型的案例:
例如,一個優(yōu)秀的棒球運(yùn)動員知道自己的哪一只手更擅長拋球,哪一只手更擅長接球。就像這樣一種情形,每只手可以嘗試執(zhí)行它天生不適合的任務(wù),但會非常笨拙,因此,通常不會看到棒球運(yùn)動員使用一只手接球,停下來,丟掉他們的手套,然后使用同一只手拋球。棒球運(yùn)動員的左手和右手協(xié)同起來會實(shí)現(xiàn)最佳的結(jié)果。
上面的例子就是傳統(tǒng)數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)的一個簡單類比:沒有這兩個重要實(shí)體的協(xié)同工作,任何組織或結(jié)構(gòu)的信息平臺都很難得到進(jìn)一步發(fā)展,因?yàn)榫拖癜羟蜻\(yùn)動員協(xié)調(diào)雙手來拋接棒球一樣,一個團(tuán)結(jié)一致的分析生態(tài)系統(tǒng)才能實(shí)現(xiàn)最佳的結(jié)果。
此時,我們經(jīng)過初步分析就可以了解到,有些類型的問題不是本來就屬于傳統(tǒng)數(shù)據(jù)庫的,至少在最初不是,而且也不確定是否希望將一些數(shù)據(jù)放在倉庫中,因?yàn)槲覀儾恢浪欠駬碛休^高的價值、是否是非結(jié)構(gòu)化的,或者是否太龐大了。更多的情況是,在投入精力和金錢將數(shù)據(jù)放在倉庫之后,才能發(fā)現(xiàn)每個字節(jié)的數(shù)據(jù)價值;但我們希望在投資之前,就能明確該數(shù)據(jù)值得保存,并擁有較高的價值。
典型的大數(shù)據(jù)解決方案應(yīng)該是具有多種能力的平臺化解決方案,這些能力包括結(jié)構(gòu)化數(shù)據(jù)的存儲、計(jì)算、分析和挖掘,多結(jié)構(gòu)化數(shù)據(jù)的存儲、加工和處理,以及大數(shù)據(jù)的商務(wù)智能分析。筆者認(rèn)為,這種解決方案在技術(shù)上應(yīng)具有以下4 個特性:軟硬集成化的大數(shù)據(jù)處理能力、全結(jié)構(gòu)化數(shù)據(jù)處理的能力、大規(guī)模內(nèi)存計(jì)算的能力、超高網(wǎng)絡(luò)速度訪問的能力。
因此,你一定要認(rèn)識到傳統(tǒng)數(shù)據(jù)庫技術(shù)是整體解決方案中一個重要且相關(guān)的部分。事實(shí)上,它們在與你的大數(shù)據(jù)平臺結(jié)合使用時會變得更加重要。
專 家 提 醒
當(dāng)前,越來越多的企業(yè)將大數(shù)據(jù)的分析結(jié)果作為其判斷未來發(fā)展的依據(jù)。同時,傳統(tǒng)的商業(yè)預(yù)測邏輯正日益被新的大數(shù)據(jù)預(yù)測所取代。但是,筆者覺得大家對于大數(shù)據(jù)的期望值要謹(jǐn)慎一些,因?yàn)楹A繑?shù)據(jù)只有在得到有效治理的前提下,才能進(jìn)一步發(fā)揮其價值。
1.2 預(yù)測未來,大數(shù)據(jù)的發(fā)展趨勢
據(jù)悉,在1993 年的美國《紐約人》雜志上刊登了一幅標(biāo)題為“互聯(lián)網(wǎng)上,沒有人知道你是一條狗”的漫畫,而作者彼得·施泰納也因此賺取了超過5 萬美元。此后的20年間,互聯(lián)網(wǎng)發(fā)生了巨大的變化,移動互聯(lián)、社交網(wǎng)絡(luò)及電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。
如今,我們在享受便利的同時,也無償貢獻(xiàn)了自己的“行蹤”,現(xiàn)在互聯(lián)網(wǎng)不但知道對面是一只狗,甚至還知道這只狗喜歡什么食物,幾點(diǎn)出去遛彎,幾點(diǎn)回窩睡覺。每個人在互聯(lián)網(wǎng)進(jìn)入到大數(shù)據(jù)時代,都將是透明性存在的,可以說是“處處行跡處處留痕”。
收集并分析海量的各種類型數(shù)據(jù),并快速獲取影響未來的信息的能力,這就是大數(shù)據(jù)技術(shù)的魅力。事實(shí)上大數(shù)據(jù)的來源非常廣泛,天上的衛(wèi)星、地上的汽車、埋在土壤里面的各類傳感器,無時無刻不在生成大量的數(shù)據(jù)。這些數(shù)據(jù)如果加以綜合利用,產(chǎn)生的社會價值和經(jīng)濟(jì)價值將是難以估量的。大數(shù)據(jù)技術(shù)讓人們看到未來解決預(yù)測問題的一絲曙光。
1.2.1 大數(shù)據(jù)撬動全世界
大數(shù)據(jù)不僅體現(xiàn)為數(shù)據(jù)量的驚人增長,更前所未有地引入了正在不斷擴(kuò)展中的數(shù)據(jù)類型。從量的增長來看,根據(jù)IDC(國際數(shù)據(jù)公司)的跟蹤分析,全球產(chǎn)生的數(shù)據(jù)總量2011 年已經(jīng)達(dá)到1.8ZB(1ZB 等于1 萬億GB,1.8ZB 也就相當(dāng)于18 億個1TB 移動硬盤的存儲量);2012 年達(dá)到約2.8ZB,但當(dāng)年全球產(chǎn)生的數(shù)據(jù)中僅有約0.5%得到有效分析。據(jù)悉,到2020 年,全球數(shù)據(jù)總量中有22%將來自中國。
電商投放廣告、物流調(diào)度運(yùn)力、證監(jiān)會抓老鼠倉、金融機(jī)構(gòu)賣基金、民航節(jié)約成本、農(nóng)民破解豬周期、制片人拍電影……看似毫不相關(guān)的事情,背后都有大數(shù)據(jù)在發(fā)力。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)對各個領(lǐng)域的滲透越來越深,從政府到企業(yè),從群體到個人,數(shù)據(jù)的積累與日俱增。4G 牌照的發(fā)放,又讓移動數(shù)據(jù)通道由“鄉(xiāng)村公路”升級為“高速公路”。
與此同時,社會上的各行各業(yè),從電信、IT 業(yè),到金融、證券、保險、航空、酒店服務(wù)業(yè)等,地球上的各種存在事物,從每個人到每棵樹、每朵花乃至每粒沙子,無一例外地都在成為大數(shù)據(jù)的生成者。筆者可以預(yù)見,大數(shù)據(jù)席卷各行各業(yè)和人們生活的速度只會越來越快。
例如,世界上第一部“先拍照后對焦”光場相機(jī)Lytro,就運(yùn)用了大數(shù)據(jù)處理分析理念。與傳統(tǒng)相機(jī)只記錄一束光不同,Lytro 可以記錄整個光場里所有的光,也就是用總體數(shù)據(jù)取代了隨機(jī)樣本。用戶沒必要一開始就對焦,想要什么樣的照片可以在拍攝之后再決定。
因此,究竟該如何“開采”大數(shù)據(jù)這座豐富的礦藏,成為了一個令人著迷的問題,因?yàn)榕c正確答案相隨的將是誰都渴望的巨大商業(yè)成功。當(dāng)前,伴隨著變革的發(fā)生,傳統(tǒng)的互聯(lián)網(wǎng)企業(yè)已經(jīng)站在了大數(shù)據(jù)時代的最前沿。作為后PC 時代的4 大巨頭,F(xiàn)acebook、谷歌、蘋果、亞馬遜正在成為大數(shù)據(jù)的擁有者和使用者,其主要特點(diǎn)如表1-5 所示。
表1-5 4 大互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)策略
大數(shù)據(jù),正在撬動全世界的神經(jīng),無論是國家、企業(yè),還是每一個獨(dú)立存在的個人,都將成為大數(shù)據(jù)時代的貢獻(xiàn)者和受益者。
專 家 提 醒
目前,數(shù)據(jù)量的大幅增加對人們注重精確性的習(xí)慣提出了挑戰(zhàn)。大數(shù)據(jù)需要技術(shù)和思維上的變革才能利用,才能做到從海量到精準(zhǔn)。這一輪的變革,事關(guān)絕大多數(shù)企業(yè)的命運(yùn)?梢钥吹剑么髷(shù)據(jù)這個視角,可以考察企業(yè)的興衰。第一,如果對大數(shù)據(jù)不關(guān)心,不了解,必將走向衰敗;第二,擁有大量的數(shù)據(jù)并善加運(yùn)用的公司,必將贏得未來。時代變了,判斷企業(yè)價值的標(biāo)準(zhǔn)、判斷軟件價值的標(biāo)準(zhǔn)也變了。
1.2.2 大數(shù)據(jù)是大勢所趨
大數(shù)據(jù)有多火?有媒體將2013 年稱為“大數(shù)據(jù)元年”。目前,幾乎所有世界級的互聯(lián)網(wǎng)企業(yè),都將業(yè)務(wù)觸角延伸至大數(shù)據(jù)產(chǎn)業(yè);無論是社交平臺逐鹿、電商價格大戰(zhàn)還是門戶網(wǎng)站競爭,都有它的影子。2012 年,美國政府投資兩億美元啟動“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,更將大數(shù)據(jù)上升到國家戰(zhàn)略層面。大數(shù)據(jù),正在由技術(shù)熱詞轉(zhuǎn)變?yōu)橐还缮鐣顺,影響社會生活的方方面面?
星巴克有意推出的“大數(shù)據(jù)咖啡杯”就是個小小的例子。美國媒體報(bào)道,這家咖啡連鎖巨頭打算試驗(yàn)在一些咖啡杯中裝上傳感器,收集?秃瓤Х人俣鹊葦(shù)據(jù),從而為喝咖啡較慢顧客提供保溫效果好的杯子,以提高其滿意度和忠誠度。
又例如,在 2008 年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購量也在下滑。通常而言,買家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)中,就是查詢點(diǎn)擊的數(shù)量和購買點(diǎn)擊的數(shù)量會保持一個相對的數(shù)值。
阿里巴巴平臺通過統(tǒng)計(jì)歷史上所有買家、賣家的詢價和成交的數(shù)據(jù),可以形成詢盤指數(shù)和成交指數(shù)。這兩個指數(shù)是密切相關(guān)的:詢盤指數(shù)是前兆性的,前期詢盤指數(shù)活躍,就會保證后期一定的成交量。因此,當(dāng)馬云觀察到詢盤指數(shù)異乎尋常地下降,自然就可以推測未來成交量的萎縮。這種統(tǒng)計(jì)和分析,如果缺少大數(shù)據(jù)技術(shù)的支持,是難以完成的。這次事件,馬云得以提前呼吁,幫助成千上萬的中小制造商準(zhǔn)備“過冬糧”,從而贏得了很高的聲譽(yù)。
因此,大數(shù)據(jù)是一種新的價值觀和方法論,人們面對的不再是隨機(jī)樣本而是全體數(shù)據(jù),不是精確性而是混雜性,不是因果關(guān)系而是相關(guān)關(guān)系。
1.2.3 大數(shù)據(jù)將成為資產(chǎn)
眾所周知,用戶的消費(fèi)習(xí)慣、興趣愛好、關(guān)系網(wǎng)絡(luò)以及整個互聯(lián)網(wǎng)的趨勢、潮流都將成為互聯(lián)網(wǎng)從業(yè)者關(guān)注的熱點(diǎn),而這一切的獲取和分析都離不開大數(shù)據(jù),因?yàn)樵谏鐣襟w基礎(chǔ)上的大數(shù)據(jù)挖掘和分析都會衍生很多應(yīng)用。例如,幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,幫企業(yè)找到更精準(zhǔn)用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤等。
大數(shù)據(jù)、社會化媒體營銷真正實(shí)現(xiàn)了營銷模式的“量體裁衣”,這是營銷領(lǐng)域跨時代的進(jìn)步。未來企業(yè)的競爭,將是擁有數(shù)據(jù)規(guī)模和活性的競爭,將是對數(shù)據(jù)解釋和運(yùn)用的競爭。
隨著技術(shù)的發(fā)展,大數(shù)據(jù)社會化營銷將是未來營銷的主戰(zhàn)場,即將到來的大數(shù)據(jù)時代可以在任何行業(yè),任何服務(wù)上出現(xiàn),由此可能產(chǎn)生的服務(wù)和商業(yè)模式將是無窮盡的。筆者認(rèn)為,圍繞大數(shù)據(jù)至少可以演繹出6 種新的商業(yè)模式,如表1-6 所示。
表1-6 6 種新的商業(yè)模式
如今,“大數(shù)據(jù)”這一話題在國內(nèi)受到投資者追捧,也不斷有高技術(shù)人才選擇這個方向創(chuàng)業(yè);但實(shí)際上國外對于“大數(shù)據(jù)”,已經(jīng)走過了概念炒作階段,進(jìn)入到實(shí)際的應(yīng)用,產(chǎn)生了實(shí)際的效益。例如,美國奧巴馬政府已經(jīng)開始大規(guī)模地投資大數(shù)據(jù)領(lǐng)域,這是大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)正式提升到戰(zhàn)略層面,大數(shù)據(jù)在經(jīng)濟(jì)社會各個層面、各個領(lǐng)域都開始受到重視。筆者相信,“大數(shù)據(jù)”將領(lǐng)跑新一輪互聯(lián)網(wǎng)投資高潮,讓資產(chǎn)逐步變成資本。
- 最新書評 查看所有書評
-
- 發(fā)表書評 查看所有書評
-