91在线免费看_2021午夜国产精品福利_国产视频精品视频_1024cl地址一地址二地址三2019

第2節(jié) 第二章

 數(shù)據(jù)體量大:大數(shù)據(jù)一般指在10TB 規(guī)模以上的數(shù)據(jù)量。但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB 級的數(shù)據(jù)量。

 數(shù)據(jù)多樣性:數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已經(jīng)沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

 價值密度低:大數(shù)據(jù)所創(chuàng)造的價值密度明顯更低。根據(jù)福利經(jīng)濟(jì)學(xué)的觀點(diǎn),生產(chǎn)率與單位商品的價值無關(guān),生產(chǎn)率只與生產(chǎn)的數(shù)量有關(guān),即生產(chǎn)率高的企業(yè)在相同的時間內(nèi)生產(chǎn)更多的價值——因而可以把更高的生產(chǎn)率理解為通過生產(chǎn)和管理技術(shù)的革新而形成的更高的勞動復(fù)雜度,勞動復(fù)雜度的提高使單位勞動時間具有了更大的價值密度。

 速度快:有數(shù)據(jù)顯示,在全球范圍內(nèi),數(shù)據(jù)量以每年 50%的速度增長,數(shù)據(jù)增長的速度已經(jīng)遠(yuǎn)遠(yuǎn)超過IT 設(shè)計(jì)發(fā)展的速度。數(shù)據(jù)本身已經(jīng)成為企業(yè)發(fā)展的資產(chǎn)?焖俨蹲綌(shù)據(jù)信息,實(shí)現(xiàn)數(shù)字化生產(chǎn)和管理,已經(jīng)成為未來企業(yè)贏得市場,應(yīng)對行業(yè)互聯(lián)網(wǎng)化的必經(jīng)之路。

另外,從“數(shù)據(jù)”這個詞來分析,大數(shù)據(jù)是海量的,是巨大的,它關(guān)乎數(shù)據(jù)量。筆者認(rèn)為可以從3 個方面定義大數(shù)據(jù):(1)數(shù)據(jù)量;(2)廣度、分類;(3)速度。簡而言之,大數(shù)據(jù)就是一個體量特別大,數(shù)據(jù)類別特別豐富的數(shù)據(jù)集。也就是說“大數(shù)據(jù)”本身并不是一種新的技術(shù),也不是一種新的產(chǎn)品,而是我們這個時代出現(xiàn)的一種現(xiàn)象。而這個“大”

大到了一種什么樣的程度呢?可以說它即將突破現(xiàn)有常規(guī)軟件所能提供的能力極限。

綜上所述,全球最大的戰(zhàn)略咨詢公司麥肯錫給出了一個十分明確的定義:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。

隨著互聯(lián)網(wǎng)革命性地改變了商業(yè)的運(yùn)作模式、政府的管理方法以及人們的生活方式,信息的積累足以引發(fā)新的變革。世界充斥著比以往更多的信息,信息總量的變化導(dǎo)致了信息形態(tài)的變化!按髷(shù)據(jù)”這一概念應(yīng)運(yùn)而生!按髷(shù)據(jù)”不同于互聯(lián)網(wǎng),它正在以巨大的力量改變著世界,它是具有更強(qiáng)的決策力、洞察力、流程優(yōu)化能力、高增長率和多樣化的信息資產(chǎn)。

如今,數(shù)據(jù)庫、大數(shù)據(jù)已經(jīng)成為變革的中心,事實(shí)上可以成為一場革命。在IT 領(lǐng)域、制造業(yè)、零售業(yè)、政府管理、科技領(lǐng)域,大數(shù)據(jù)都在改變著這個世界的運(yùn)行方式。因此,我們稱之為大數(shù)據(jù)的新世界。

專 家 提 醒

數(shù)據(jù)基本單位換算:

1B(byte,字節(jié))=8b(bit 位)

1KB(Kilobyte,千字節(jié))=1024B

1MB(Megabyte,百萬字節(jié)兆字節(jié),簡稱“兆”)=1024KB

1GB(Gigabyte,十億字節(jié)吉字節(jié),又稱“千兆”)=1024MB

1TB(Trillionbyte,萬億字節(jié)太字節(jié))=1024GB

1PB(Petabyte,千萬億字節(jié)拍字節(jié))=1024TB

1EB(Exabyte,百億億字節(jié)艾字節(jié))=1024PB

1ZB(Zettabyte,十萬億億字節(jié)澤字節(jié))=1024EB

1.1.2 大數(shù)據(jù)結(jié)構(gòu)特征

如今,全球存儲的數(shù)據(jù)量正在急劇增長,數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。在2000

年,全球存儲了800000PB 的數(shù)據(jù)。預(yù)計(jì)到2020 年,這一數(shù)字會達(dá)到35ZB。單單Twitter

每天就會生成超過7TB 的數(shù)據(jù),F(xiàn)acebook 為10TB,一些企業(yè)在一年中每一天的每一小時就會產(chǎn)生數(shù)TB 的數(shù)據(jù)。

就傳統(tǒng)IT 企業(yè)來看,其結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)增長也是驚人的。2005 年企業(yè)存儲的結(jié)構(gòu)化數(shù)據(jù)為4EB,到2015 年將增至29EB,年復(fù)合增長率逾20%。非結(jié)構(gòu)化數(shù)據(jù)發(fā)展更猛。2005 年為22EB,2015 年將增至1600EB,年復(fù)合增長率約60%,遠(yuǎn)遠(yuǎn)快于摩爾定律。

那么,一分鐘到底會有多少數(shù)據(jù)產(chǎn)生呢?

 電子郵件用戶發(fā)送204166677 條信息。

 Google 收到超過2000000 個搜索查詢。

 Facebook 用戶分享684478 條內(nèi)容。

 消費(fèi)者在網(wǎng)購上花費(fèi)272070 美元。

 Twitter 用戶發(fā)送超過100000 條微博。

 蘋果公司收到大約47000 個應(yīng)用下載。

 Facebook 上的品牌和企業(yè)收到34722 個“贊”。

 Tumblr 博客用戶發(fā)布27778 個新帖子。

 Instagram 用戶分享36000 張新照片。

 Flickr 用戶添加3125 張新照片。

 Foursquare 用戶執(zhí)行2083 次簽到。

 571 個新網(wǎng)站誕生。

 WordPress 用戶發(fā)布347 篇新博文。

由于數(shù)據(jù)自身的復(fù)雜性,作為一個必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(Massively Parallel Processing,MPP),這使得并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來處理和分析。

大數(shù)據(jù)的結(jié)構(gòu)就體現(xiàn)了它最突出的特征,如表1-1 所示,顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長趨勢。據(jù)悉,未來數(shù)據(jù)增長的80%~90%將來自于非結(jié)構(gòu)化的數(shù)據(jù)類型

(包括半非結(jié)構(gòu)化、準(zhǔn)非結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))。

1.1.3 大數(shù)據(jù)與云計(jì)算

在過去3 年當(dāng)中,筆者經(jīng)歷了大數(shù)據(jù)的發(fā)展從無到有,3 年前可能還沒有人說這個詞,現(xiàn)在已經(jīng)如火如荼,F(xiàn)在,每天有大量數(shù)據(jù)和信息生成,這為大數(shù)據(jù)分析提供了機(jī)會。相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)更能反映這個世界的真實(shí)情況,例如,人們會上傳和公布大量的圖片來記錄個人的生活和社會的變化。如今,一天之內(nèi)人們上傳的照片數(shù)量就相當(dāng)于柯達(dá)發(fā)明膠卷之后拍攝的圖像總和。

過去,計(jì)算機(jī)主要是用于解決大企業(yè)交易型的數(shù)據(jù),并不會記錄其他無關(guān)的信息,只有在云計(jì)算產(chǎn)業(yè)規(guī);l(fā)展之后,分布式計(jì)算才給大數(shù)據(jù)提供了記錄的載體?梢哉f,云計(jì)算使大數(shù)據(jù)變成可能,打個比方,云計(jì)算充當(dāng)了工業(yè)革命時期“發(fā)動機(jī)”的角色,而大數(shù)據(jù)則是“電”。

然而,現(xiàn)在除了數(shù)據(jù)本身發(fā)生了改變,云計(jì)算也使數(shù)據(jù)變得更加分散,在這樣的趨勢下,傳統(tǒng)數(shù)據(jù)庫對于海量數(shù)據(jù)存儲的需求、處理速度的需求、數(shù)據(jù)多樣化的需求難以滿足,從而使各種各樣的解決方案大行其道。

總之,云計(jì)算為大數(shù)據(jù)帶來了硬件存儲的條件——更便宜的分布式運(yùn)算存儲,而互聯(lián)網(wǎng)時代的今天也在不斷呼喚數(shù)據(jù)應(yīng)用和服務(wù)。在技術(shù)和需求的雙重推動下,會有越來越多的政府機(jī)構(gòu)、公司企業(yè)和個人意識到數(shù)據(jù)是巨大的經(jīng)濟(jì)資產(chǎn),像貨幣或黃金一樣,它將帶來全新的創(chuàng)業(yè)方向、商業(yè)模式和投資機(jī)會。

大數(shù)據(jù)和云計(jì)算的區(qū)別與聯(lián)系如表1-2 所示。

專 家 提 醒

云計(jì)算和大數(shù)據(jù)注定將帶來一次革命,無論是對社會、公司和個人來說,都是一次世界觀的改變。屆時,互聯(lián)網(wǎng)不再是一個展示公司的工具或平臺,而是屬于未來的生產(chǎn)方式,是關(guān)乎競爭和生存的關(guān)鍵。

1.1.4 大數(shù)據(jù)規(guī)模預(yù)測

當(dāng)你走進(jìn)一家陌生的小餐廳時,耳邊響起只有你才熟悉的音樂旋律。這樣的場景實(shí)現(xiàn)技術(shù)上并不難,餐廳只要讀出你的手機(jī)音樂下載記錄,通過數(shù)據(jù)分析,就可以定制播放你喜歡的音樂,這就是大數(shù)據(jù)時代的潛力。

前面筆者已經(jīng)說了,大數(shù)據(jù)由4 個V 組成,這4 個V 的組合推動了第5 個因素——價值(Value)的出現(xiàn)。隨著云計(jì)算概念日漸深入人心,大數(shù)據(jù)也越來越受到關(guān)注。國際知名數(shù)據(jù)公司IDC 在長期對云計(jì)算市場進(jìn)行跟蹤研究的同時,也對大數(shù)據(jù)市場保持著密切關(guān)注。如圖1-6 所示,IDC 發(fā)現(xiàn),目前大數(shù)據(jù)對市場的影響正日益提升,已經(jīng)開始影響數(shù)據(jù)中心設(shè)計(jì)、移動應(yīng)用投資、數(shù)據(jù)管理等相關(guān)領(lǐng)域。

圖1-6 IDC 全球大數(shù)據(jù)市場規(guī)模與預(yù)測

1.1.5 大數(shù)據(jù)的發(fā)展史

如今,越來越多的企業(yè)參與到大數(shù)據(jù)的競爭中來,那么“大數(shù)據(jù)”這個詞匯是如何誕生以及演變的呢?

大數(shù)據(jù)是一個修辭學(xué)意義上的詞匯,在數(shù)據(jù)方面,“大”(big)是一個快速發(fā)展的術(shù)語。早在1890 年,美國統(tǒng)計(jì)學(xué)家赫爾曼·霍爾瑞斯為了統(tǒng)計(jì)這一年的人口普查數(shù)據(jù),發(fā)明了一臺電動器來讀取卡片上的數(shù)據(jù),該設(shè)備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球范圍內(nèi)引發(fā)了數(shù)據(jù)處理的新紀(jì)元。

1961 年,剛成立9 年的美國國家安全局(NSA)是擁有超過12000 個密碼學(xué)家的情報(bào)機(jī)構(gòu),在間諜飽和的冷戰(zhàn)年代,面對超量信息,他們開始采用計(jì)算機(jī)自動收集處理信號情報(bào),并努力將倉庫內(nèi)積壓的模擬磁帶信息進(jìn)行數(shù)字化處理。僅1961 年7 月份,該機(jī)構(gòu)就收到了17000 卷磁帶。

起初,許多科學(xué)家和工程師都嘲笑“大數(shù)據(jù)”只不過是一個營銷術(shù)語。2008 年末,“大數(shù)據(jù)”得到部分美國知名計(jì)算機(jī)科學(xué)研究人員的認(rèn)可,業(yè)界組織“計(jì)算社區(qū)聯(lián)盟”(Computing Community Consortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計(jì)算》,中肯地闡述了大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn)。

2009 年5 月,美國總統(tǒng)巴拉克·奧巴馬政府推出data.gov 網(wǎng)站,作為政府開放數(shù)據(jù)計(jì)劃的部分舉措。該網(wǎng)站擁有超過4.45 萬的數(shù)據(jù)量集,這樣一些網(wǎng)站和智能手機(jī)應(yīng)用程序能跟蹤如航班、產(chǎn)品召回、特定區(qū)域內(nèi)失業(yè)率等信息,這一行動激發(fā)了肯尼亞、英國等政府相繼推出類似舉措。

2011 年2 月,掃描2 億頁的頁面信息,或4 兆兆字節(jié)磁盤存儲,只需幾秒即可完成。同時,IBM 的沃森計(jì)算機(jī)系統(tǒng)在智力競賽節(jié)目《危險邊緣》中打敗了兩名人類挑戰(zhàn)者,后來《紐約時報(bào)》稱這一刻為“大數(shù)據(jù)計(jì)算勝利”的時刻。

2011 年,英國《自然》雜志曾出版專刊指出,倘若能夠更有效地組織和使用大數(shù)據(jù),人類將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù),這對社會發(fā)展有巨大的推動作用。

2012 年3 月,美國政府報(bào)告要求每個聯(lián)邦機(jī)構(gòu)都要有一個“大數(shù)據(jù)”的策略,作為回應(yīng),奧巴馬政府宣布了一項(xiàng)耗資兩億美元的大數(shù)據(jù)研究與發(fā)展項(xiàng)目。

2012 年7 月,美國國務(wù)卿希拉里·克林頓宣布了一個名為“數(shù)據(jù)2X”的公私合營企業(yè),用來收集統(tǒng)計(jì)世界各地的婦女和女童在經(jīng)濟(jì)、政治和社會地位方面的信息。

回顧過去的50 多年,我們可以看到IT 產(chǎn)業(yè)已經(jīng)經(jīng)歷了幾輪新興和重疊的技術(shù)浪潮,如圖1-7 所示。這里面的每一波浪潮都是由新興的IT 供應(yīng)商主導(dǎo)的,他們改變了已有的秩序,重新定義了已有的計(jì)算機(jī)規(guī)范,并為進(jìn)入新時代鋪平了道路。

圖1-7 IT 產(chǎn)業(yè)的發(fā)展浪潮

人們手中的手機(jī)和移動設(shè)備是數(shù)據(jù)量爆炸的一個重要原因,目前,全球擁有 50 億臺手機(jī)用戶,其中20 億臺為智能電話,這相當(dāng)于20 世紀(jì)80 年代20 億臺IBM 的大型機(jī)掌握在消費(fèi)者手里。

“大數(shù)據(jù)”是“數(shù)據(jù)化”趨勢下的必然產(chǎn)物。數(shù)據(jù)化最核心的理念是:“一切都被記錄,一切都被數(shù)字化”。它帶來了兩個重大的變化:一是數(shù)據(jù)量的爆炸性劇增,最近兩年所產(chǎn)生的數(shù)據(jù)量等同于2010 年以前整個人類文明產(chǎn)生的數(shù)據(jù)量總和;二是數(shù)據(jù)來源的極大豐富,形成了多源異構(gòu)的數(shù)據(jù)形態(tài),其中非結(jié)構(gòu)化數(shù)據(jù)所占比重逐年增大。

1.1.6 大數(shù)據(jù)技術(shù)架構(gòu)

即便是在“摩爾定律”,即每18 個月芯片性能將提高1 倍的支撐下,硬件性能進(jìn)化的速度也早已趕不上數(shù)據(jù)增長的速度了,并且差距越來越巨大。例如,一分鐘之內(nèi),新浪微博有數(shù)萬條微博發(fā)送,蘋果應(yīng)用商店下載次數(shù)以萬計(jì),淘寶賣出了幾萬件商品,百度產(chǎn)生了百萬次搜索查詢……所有這些行為都由海量的數(shù)據(jù)來呈現(xiàn)。

那么,大數(shù)據(jù)是通過什么樣的技術(shù)架構(gòu)來接受、容納并處理這些海量數(shù)據(jù)的呢?

要容納數(shù)據(jù)本身,IT 基礎(chǔ)架構(gòu)必須能夠以經(jīng)濟(jì)的方式存儲比以往更大量、類型更多的數(shù)據(jù)。此外,還必須能適應(yīng)數(shù)據(jù)速度,即數(shù)據(jù)變化的速度。數(shù)量如此大的數(shù)據(jù)難以在當(dāng)今的網(wǎng)絡(luò)連接條件下快速來回移動。大數(shù)據(jù)基礎(chǔ)架構(gòu)必須具有分布式計(jì)算能力,以便能在接近用戶的位置進(jìn)行數(shù)據(jù)分析,減少跨越網(wǎng)絡(luò)所引起的延遲。

因此,云計(jì)算模式為大數(shù)據(jù)的成功提供了很好的條件,以實(shí)現(xiàn)大數(shù)據(jù)分析所需的效率、可擴(kuò)展性、數(shù)據(jù)便攜性和經(jīng)濟(jì)性。另外,還可以用來跨越毫不相干的數(shù)據(jù)源比較不同類型的數(shù)據(jù)和進(jìn)行模式匹配。這使得大數(shù)據(jù)分析能以新視角挖掘企業(yè)傳統(tǒng)數(shù)據(jù),并帶來傳統(tǒng)上未曾有過的數(shù)據(jù)洞察力。

例如,LinkedIn 是世界上最大的專業(yè)人士社交網(wǎng)絡(luò),在全球范圍內(nèi)有2.25 億用戶,并且以每秒2 個新用戶的速度增長。LinkedIn 還是一個解決方案供應(yīng)商,據(jù)悉,目前有88%的財(cái)富100 強(qiáng)企業(yè)在使用LinkedIn 的付費(fèi)解決方案,LinkedIn 還有超出290 萬的公司主頁及相關(guān)信息。

LinkedIn 之所以取得如此大的成功,是因?yàn)樗麄冇袑I(yè)的身份可以拓展人脈發(fā)現(xiàn)機(jī)遇,專業(yè)的內(nèi)容全方位掌握業(yè)界資訊,專業(yè)的平臺隨時隨地了解人脈動向。

從LinkedIn 的業(yè)務(wù)模型不難看出,其本身就擁有海量的數(shù)據(jù),通過這些數(shù)據(jù)創(chuàng)造出有價值的產(chǎn)品和服務(wù),來增加用戶數(shù)量和用戶黏性,這樣數(shù)據(jù)還會不斷增長從而形成一個“閉環(huán)”。LinkedIn 有人才、市場、高級訂閱服務(wù)三大商業(yè)解決方案,而且三大商業(yè)解決方案的盈收每年也呈翻倍增長趨勢,而其中占盈收比例最大的是人才解決方案。

另外,LinkedIn 的數(shù)據(jù)按用戶可分為用戶特征數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶網(wǎng)絡(luò)數(shù)據(jù);按數(shù)據(jù)存取速度可分為在線數(shù)據(jù)、近線數(shù)據(jù)、離線數(shù)據(jù)。LinkedIn 的三級數(shù)據(jù)架構(gòu)根據(jù)不同性質(zhì)的工作設(shè)計(jì),其中近線數(shù)據(jù)存儲在Voldemort 分布式數(shù)據(jù)庫中,在線數(shù)據(jù)存儲在Oracle 和Espresso 中,服務(wù)器日志存儲在Web Logs 中。使用Kafka 發(fā)布數(shù)據(jù),通過Databus 捕獲在線數(shù)據(jù),而所有的離線數(shù)據(jù)由Hadoop 和Teradata 數(shù)據(jù)庫構(gòu)成。

基于上述考慮,大數(shù)據(jù)可以采用四層堆棧式技術(shù)架構(gòu),如表1-3 所示。

表1-3 采用四層堆棧式技術(shù)架構(gòu)的大數(shù)據(jù)

專 家 提 醒

云模型鼓勵訪問數(shù)據(jù)并提供彈性資源池來應(yīng)對大規(guī)模問題,其解決了如何存儲大量數(shù)據(jù),以及如何積聚所需的計(jì)算資源來操作數(shù)據(jù)的問題。在云中,數(shù)據(jù)可跨多個節(jié)點(diǎn)調(diào)配和分布,這使得數(shù)據(jù)更接近需要它的用戶,從而縮短響應(yīng)時間和提高生產(chǎn)率。

1.1.7 大數(shù)據(jù)重要的理由

人們?yōu)槭裁慈绱岁P(guān)心大數(shù)據(jù)呢?其實(shí)大數(shù)據(jù)可以使我們提出新問題,來了解我們的業(yè)務(wù)。例如社交網(wǎng)絡(luò)分析,一個企業(yè),即使你是一個個體,你也有一個品牌,如何分析你的品牌影響力、品牌聲譽(yù),這些問題之前不容易回答,如今在大數(shù)據(jù)的時代可以很容易得到答案,并且?guī)缀跏且詫?shí)時的速度來解答。

例如,有一家物流公司,有卡車等運(yùn)輸工具,希望優(yōu)化車隊(duì)的運(yùn)輸路線,提高運(yùn)輸效率,并且基于實(shí)時的交送信息、天氣信息及其他類型的信息,F(xiàn)在通過傳感器和大數(shù)據(jù)就可以做到。事實(shí)上,關(guān)于過去和現(xiàn)在,甚至是未來的事務(wù),大數(shù)據(jù)分析都能夠用得上。

專 家 提 醒

雖然大數(shù)據(jù)是一個重大問題,但筆者認(rèn)為,真正的問題是如何讓大數(shù)據(jù)更有意義,如何在大數(shù)據(jù)里面尋找模式幫助組織機(jī)構(gòu)做出更好的商業(yè)決策。

當(dāng)前,隨著互聯(lián)網(wǎng)科技的日益成熟,各種類型數(shù)據(jù)的增長將會超越歷史上任何一個時期。因此,用戶想要從這龐大的數(shù)據(jù)庫中提取對自己有用的信息,就離不開大數(shù)據(jù)分析技術(shù)和工具。如表1-4 所示,向大家展示了大數(shù)據(jù)分析將越來越重要的10 個理由。

表1-4 大數(shù)據(jù)分析為何重要的理由

專 家 提 醒

對大企業(yè)而言,大數(shù)據(jù)的興起,首先,是因?yàn)橛?jì)算能力可以更低的成本獲得,且各類系統(tǒng)如今已能夠支持多任務(wù)處理;其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù);最后,把計(jì)算機(jī)聚合成服務(wù)器集群越來越簡單。

1.1.8 大數(shù)據(jù)的解決方案

當(dāng)前,越來越多的企業(yè)將大數(shù)據(jù)的分析結(jié)果作為其判斷未來發(fā)展的依據(jù)。同時,傳統(tǒng)的商業(yè)預(yù)測邏輯正日益被新的大數(shù)據(jù)預(yù)測所取代。既然大數(shù)據(jù)如此重要,那么大數(shù)據(jù)解決方案是否可以完全替代傳統(tǒng)的數(shù)據(jù)庫解決方案呢?

在這里,筆者先不說出答案,而是先帶大家看一個典型的案例:

例如,一個優(yōu)秀的棒球運(yùn)動員知道自己的哪一只手更擅長拋球,哪一只手更擅長接球。就像這樣一種情形,每只手可以嘗試執(zhí)行它天生不適合的任務(wù),但會非常笨拙,因此,通常不會看到棒球運(yùn)動員使用一只手接球,停下來,丟掉他們的手套,然后使用同一只手拋球。棒球運(yùn)動員的左手和右手協(xié)同起來會實(shí)現(xiàn)最佳的結(jié)果。

上面的例子就是傳統(tǒng)數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)的一個簡單類比:沒有這兩個重要實(shí)體的協(xié)同工作,任何組織或結(jié)構(gòu)的信息平臺都很難得到進(jìn)一步發(fā)展,因?yàn)榫拖癜羟蜻\(yùn)動員協(xié)調(diào)雙手來拋接棒球一樣,一個團(tuán)結(jié)一致的分析生態(tài)系統(tǒng)才能實(shí)現(xiàn)最佳的結(jié)果。

此時,我們經(jīng)過初步分析就可以了解到,有些類型的問題不是本來就屬于傳統(tǒng)數(shù)據(jù)庫的,至少在最初不是,而且也不確定是否希望將一些數(shù)據(jù)放在倉庫中,因?yàn)槲覀儾恢浪欠駬碛休^高的價值、是否是非結(jié)構(gòu)化的,或者是否太龐大了。更多的情況是,在投入精力和金錢將數(shù)據(jù)放在倉庫之后,才能發(fā)現(xiàn)每個字節(jié)的數(shù)據(jù)價值;但我們希望在投資之前,就能明確該數(shù)據(jù)值得保存,并擁有較高的價值。

典型的大數(shù)據(jù)解決方案應(yīng)該是具有多種能力的平臺化解決方案,這些能力包括結(jié)構(gòu)化數(shù)據(jù)的存儲、計(jì)算、分析和挖掘,多結(jié)構(gòu)化數(shù)據(jù)的存儲、加工和處理,以及大數(shù)據(jù)的商務(wù)智能分析。筆者認(rèn)為,這種解決方案在技術(shù)上應(yīng)具有以下4 個特性:軟硬集成化的大數(shù)據(jù)處理能力、全結(jié)構(gòu)化數(shù)據(jù)處理的能力、大規(guī)模內(nèi)存計(jì)算的能力、超高網(wǎng)絡(luò)速度訪問的能力。

因此,你一定要認(rèn)識到傳統(tǒng)數(shù)據(jù)庫技術(shù)是整體解決方案中一個重要且相關(guān)的部分。事實(shí)上,它們在與你的大數(shù)據(jù)平臺結(jié)合使用時會變得更加重要。

專 家 提 醒

當(dāng)前,越來越多的企業(yè)將大數(shù)據(jù)的分析結(jié)果作為其判斷未來發(fā)展的依據(jù)。同時,傳統(tǒng)的商業(yè)預(yù)測邏輯正日益被新的大數(shù)據(jù)預(yù)測所取代。但是,筆者覺得大家對于大數(shù)據(jù)的期望值要謹(jǐn)慎一些,因?yàn)楹A繑?shù)據(jù)只有在得到有效治理的前提下,才能進(jìn)一步發(fā)揮其價值。

1.2 預(yù)測未來,大數(shù)據(jù)的發(fā)展趨勢

據(jù)悉,在1993 年的美國《紐約人》雜志上刊登了一幅標(biāo)題為“互聯(lián)網(wǎng)上,沒有人知道你是一條狗”的漫畫,而作者彼得·施泰納也因此賺取了超過5 萬美元。此后的20年間,互聯(lián)網(wǎng)發(fā)生了巨大的變化,移動互聯(lián)、社交網(wǎng)絡(luò)及電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。

如今,我們在享受便利的同時,也無償貢獻(xiàn)了自己的“行蹤”,現(xiàn)在互聯(lián)網(wǎng)不但知道對面是一只狗,甚至還知道這只狗喜歡什么食物,幾點(diǎn)出去遛彎,幾點(diǎn)回窩睡覺。每個人在互聯(lián)網(wǎng)進(jìn)入到大數(shù)據(jù)時代,都將是透明性存在的,可以說是“處處行跡處處留痕”。

收集并分析海量的各種類型數(shù)據(jù),并快速獲取影響未來的信息的能力,這就是大數(shù)據(jù)技術(shù)的魅力。事實(shí)上大數(shù)據(jù)的來源非常廣泛,天上的衛(wèi)星、地上的汽車、埋在土壤里面的各類傳感器,無時無刻不在生成大量的數(shù)據(jù)。這些數(shù)據(jù)如果加以綜合利用,產(chǎn)生的社會價值和經(jīng)濟(jì)價值將是難以估量的。大數(shù)據(jù)技術(shù)讓人們看到未來解決預(yù)測問題的一絲曙光。

1.2.1 大數(shù)據(jù)撬動全世界

大數(shù)據(jù)不僅體現(xiàn)為數(shù)據(jù)量的驚人增長,更前所未有地引入了正在不斷擴(kuò)展中的數(shù)據(jù)類型。從量的增長來看,根據(jù)IDC(國際數(shù)據(jù)公司)的跟蹤分析,全球產(chǎn)生的數(shù)據(jù)總量2011 年已經(jīng)達(dá)到1.8ZB(1ZB 等于1 萬億GB,1.8ZB 也就相當(dāng)于18 億個1TB 移動硬盤的存儲量);2012 年達(dá)到約2.8ZB,但當(dāng)年全球產(chǎn)生的數(shù)據(jù)中僅有約0.5%得到有效分析。據(jù)悉,到2020 年,全球數(shù)據(jù)總量中有22%將來自中國。

電商投放廣告、物流調(diào)度運(yùn)力、證監(jiān)會抓老鼠倉、金融機(jī)構(gòu)賣基金、民航節(jié)約成本、農(nóng)民破解豬周期、制片人拍電影……看似毫不相關(guān)的事情,背后都有大數(shù)據(jù)在發(fā)力。隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)對各個領(lǐng)域的滲透越來越深,從政府到企業(yè),從群體到個人,數(shù)據(jù)的積累與日俱增。4G 牌照的發(fā)放,又讓移動數(shù)據(jù)通道由“鄉(xiāng)村公路”升級為“高速公路”。

與此同時,社會上的各行各業(yè),從電信、IT 業(yè),到金融、證券、保險、航空、酒店服務(wù)業(yè)等,地球上的各種存在事物,從每個人到每棵樹、每朵花乃至每粒沙子,無一例外地都在成為大數(shù)據(jù)的生成者。筆者可以預(yù)見,大數(shù)據(jù)席卷各行各業(yè)和人們生活的速度只會越來越快。

例如,世界上第一部“先拍照后對焦”光場相機(jī)Lytro,就運(yùn)用了大數(shù)據(jù)處理分析理念。與傳統(tǒng)相機(jī)只記錄一束光不同,Lytro 可以記錄整個光場里所有的光,也就是用總體數(shù)據(jù)取代了隨機(jī)樣本。用戶沒必要一開始就對焦,想要什么樣的照片可以在拍攝之后再決定。

因此,究竟該如何“開采”大數(shù)據(jù)這座豐富的礦藏,成為了一個令人著迷的問題,因?yàn)榕c正確答案相隨的將是誰都渴望的巨大商業(yè)成功。當(dāng)前,伴隨著變革的發(fā)生,傳統(tǒng)的互聯(lián)網(wǎng)企業(yè)已經(jīng)站在了大數(shù)據(jù)時代的最前沿。作為后PC 時代的4 大巨頭,F(xiàn)acebook、谷歌、蘋果、亞馬遜正在成為大數(shù)據(jù)的擁有者和使用者,其主要特點(diǎn)如表1-5 所示。

表1-5 4 大互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)策略

大數(shù)據(jù),正在撬動全世界的神經(jīng),無論是國家、企業(yè),還是每一個獨(dú)立存在的個人,都將成為大數(shù)據(jù)時代的貢獻(xiàn)者和受益者。

專 家 提 醒

目前,數(shù)據(jù)量的大幅增加對人們注重精確性的習(xí)慣提出了挑戰(zhàn)。大數(shù)據(jù)需要技術(shù)和思維上的變革才能利用,才能做到從海量到精準(zhǔn)。這一輪的變革,事關(guān)絕大多數(shù)企業(yè)的命運(yùn)?梢钥吹剑么髷(shù)據(jù)這個視角,可以考察企業(yè)的興衰。第一,如果對大數(shù)據(jù)不關(guān)心,不了解,必將走向衰敗;第二,擁有大量的數(shù)據(jù)并善加運(yùn)用的公司,必將贏得未來。時代變了,判斷企業(yè)價值的標(biāo)準(zhǔn)、判斷軟件價值的標(biāo)準(zhǔn)也變了。

1.2.2 大數(shù)據(jù)是大勢所趨

大數(shù)據(jù)有多火?有媒體將2013 年稱為“大數(shù)據(jù)元年”。目前,幾乎所有世界級的互聯(lián)網(wǎng)企業(yè),都將業(yè)務(wù)觸角延伸至大數(shù)據(jù)產(chǎn)業(yè);無論是社交平臺逐鹿、電商價格大戰(zhàn)還是門戶網(wǎng)站競爭,都有它的影子。2012 年,美國政府投資兩億美元啟動“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,更將大數(shù)據(jù)上升到國家戰(zhàn)略層面。大數(shù)據(jù),正在由技術(shù)熱詞轉(zhuǎn)變?yōu)橐还缮鐣顺,影響社會生活的方方面面?

星巴克有意推出的“大數(shù)據(jù)咖啡杯”就是個小小的例子。美國媒體報(bào)道,這家咖啡連鎖巨頭打算試驗(yàn)在一些咖啡杯中裝上傳感器,收集?秃瓤Х人俣鹊葦(shù)據(jù),從而為喝咖啡較慢顧客提供保溫效果好的杯子,以提高其滿意度和忠誠度。

又例如,在 2008 年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購量也在下滑。通常而言,買家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)中,就是查詢點(diǎn)擊的數(shù)量和購買點(diǎn)擊的數(shù)量會保持一個相對的數(shù)值。

阿里巴巴平臺通過統(tǒng)計(jì)歷史上所有買家、賣家的詢價和成交的數(shù)據(jù),可以形成詢盤指數(shù)和成交指數(shù)。這兩個指數(shù)是密切相關(guān)的:詢盤指數(shù)是前兆性的,前期詢盤指數(shù)活躍,就會保證后期一定的成交量。因此,當(dāng)馬云觀察到詢盤指數(shù)異乎尋常地下降,自然就可以推測未來成交量的萎縮。這種統(tǒng)計(jì)和分析,如果缺少大數(shù)據(jù)技術(shù)的支持,是難以完成的。這次事件,馬云得以提前呼吁,幫助成千上萬的中小制造商準(zhǔn)備“過冬糧”,從而贏得了很高的聲譽(yù)。

因此,大數(shù)據(jù)是一種新的價值觀和方法論,人們面對的不再是隨機(jī)樣本而是全體數(shù)據(jù),不是精確性而是混雜性,不是因果關(guān)系而是相關(guān)關(guān)系。

1.2.3 大數(shù)據(jù)將成為資產(chǎn)

眾所周知,用戶的消費(fèi)習(xí)慣、興趣愛好、關(guān)系網(wǎng)絡(luò)以及整個互聯(lián)網(wǎng)的趨勢、潮流都將成為互聯(lián)網(wǎng)從業(yè)者關(guān)注的熱點(diǎn),而這一切的獲取和分析都離不開大數(shù)據(jù),因?yàn)樵谏鐣襟w基礎(chǔ)上的大數(shù)據(jù)挖掘和分析都會衍生很多應(yīng)用。例如,幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,幫企業(yè)找到更精準(zhǔn)用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤等。

大數(shù)據(jù)、社會化媒體營銷真正實(shí)現(xiàn)了營銷模式的“量體裁衣”,這是營銷領(lǐng)域跨時代的進(jìn)步。未來企業(yè)的競爭,將是擁有數(shù)據(jù)規(guī)模和活性的競爭,將是對數(shù)據(jù)解釋和運(yùn)用的競爭。

隨著技術(shù)的發(fā)展,大數(shù)據(jù)社會化營銷將是未來營銷的主戰(zhàn)場,即將到來的大數(shù)據(jù)時代可以在任何行業(yè),任何服務(wù)上出現(xiàn),由此可能產(chǎn)生的服務(wù)和商業(yè)模式將是無窮盡的。筆者認(rèn)為,圍繞大數(shù)據(jù)至少可以演繹出6 種新的商業(yè)模式,如表1-6 所示。

表1-6 6 種新的商業(yè)模式

如今,“大數(shù)據(jù)”這一話題在國內(nèi)受到投資者追捧,也不斷有高技術(shù)人才選擇這個方向創(chuàng)業(yè);但實(shí)際上國外對于“大數(shù)據(jù)”,已經(jīng)走過了概念炒作階段,進(jìn)入到實(shí)際的應(yīng)用,產(chǎn)生了實(shí)際的效益。例如,美國奧巴馬政府已經(jīng)開始大規(guī)模地投資大數(shù)據(jù)領(lǐng)域,這是大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)正式提升到戰(zhàn)略層面,大數(shù)據(jù)在經(jīng)濟(jì)社會各個層面、各個領(lǐng)域都開始受到重視。筆者相信,“大數(shù)據(jù)”將領(lǐng)跑新一輪互聯(lián)網(wǎng)投資高潮,讓資產(chǎn)逐步變成資本。

最新書評 查看所有書評
發(fā)表書評 查看所有書評
請自覺遵守互聯(lián)網(wǎng)相關(guān)的政策法規(guī),嚴(yán)禁發(fā)布色情、暴力、反動的言論。
評價:
表情:
用戶名: 密碼: 驗(yàn)證碼: