- 第1節(jié) 冪律思維
-
可以說,冪律是大數(shù)據(jù)所遵循的基本定理,這項(xiàng)研究成果給了人們一個(gè)能夠預(yù)測未來的依據(jù)。那么,什么是冪律?它指的是幾何平均定值,如有一萬個(gè)連線的大節(jié)點(diǎn)有十個(gè),有一千個(gè)連線的中節(jié)點(diǎn)有一百個(gè),一百個(gè)連線的小節(jié)點(diǎn)有一千個(gè)……在對(duì)數(shù)坐標(biāo)上畫出來會(huì)得到一條斜向下的直線。
冪律是控制人們生活節(jié)奏的根本
在《致命爭吵的統(tǒng)計(jì)數(shù)字》一書中,有一個(gè)顯著的偏差值,可以表示沖突的等級(jí)數(shù)。一些戰(zhàn)爭的傷亡人數(shù)超過百萬,另一些戰(zhàn)爭的死傷人數(shù)只有幾十個(gè)。根據(jù)這種顯著的差異,便可以將造成少量死亡人數(shù)定義為零級(jí),傷亡人數(shù)為十人的戰(zhàn)爭是一級(jí),傷亡人數(shù)為百人的是二級(jí),數(shù)千人的喪生定義為三級(jí)。
如果戰(zhàn)爭是隨機(jī)發(fā)生的,那么按照常理推算,每次戰(zhàn)爭的死亡人數(shù)應(yīng)該是相差無幾的,但是研究數(shù)據(jù)結(jié)果并非如此。在1820-1949年,共發(fā)生了282次戰(zhàn)爭中,有188次是三級(jí)以下的小型戰(zhàn)爭。通過數(shù)據(jù)觀察,就可以知道傷亡人數(shù)與戰(zhàn)爭數(shù)量之間的關(guān)系遵循著一個(gè)簡單的數(shù)學(xué)規(guī)律,也就是“越少就越大”。這是什么意思呢?
19世紀(jì)的經(jīng)濟(jì)學(xué)家維弗雷多·帕累托發(fā)現(xiàn)了這樣一種現(xiàn)象:大多數(shù)人都是貧窮的,只有少數(shù)人積累了大部分財(cái)富,富人的出現(xiàn)并不令人吃驚。令人吃驚的是,富人的富有程度遠(yuǎn)遠(yuǎn)超過財(cái)富隨機(jī)分配的一般水平。
研究的數(shù)據(jù)表明,戰(zhàn)爭和財(cái)富能夠符合冪律的分布,小事件與個(gè)別大事件是完全可以共存的。在大數(shù)據(jù)“肆意傳播”的世界中,如果沒有數(shù)據(jù)分析的力量,谷歌和雅虎不會(huì)吸引數(shù)以百萬的點(diǎn)擊率,比爾·蓋茨也不可能聚集如此之多的財(cái)富,戰(zhàn)爭也更加不應(yīng)該造成那么多人的傷亡。然而,真實(shí)的世界是非常殘酷的。冪律分布的本質(zhì)就是能預(yù)測出這些,告訴人們總有嚴(yán)重偏離平均值的異常值。也就是說,一旦冪律出現(xiàn),就會(huì)有異常值出現(xiàn)。
冪律和爆發(fā)點(diǎn)的相伴相生
在日常生活中,人們會(huì)參加會(huì)議、看電影、約會(huì)、吃飯、睡覺等,總之,會(huì)做很多事情。所以,人們無法一直待在電腦前查收郵件。但只要有時(shí)間,人們就會(huì)查收郵件,在短時(shí)間內(nèi)發(fā)送回復(fù)或?qū)戉]件。而這就形成了數(shù)據(jù)模型中的一個(gè)爆發(fā)點(diǎn)。基于這樣的生活節(jié)奏,人類活動(dòng)中出現(xiàn)爆發(fā)點(diǎn)就不那么稀奇了。一旦冪律出現(xiàn),爆發(fā)點(diǎn)的出現(xiàn)也就會(huì)隨之出現(xiàn)了。短時(shí)間的活躍和長時(shí)間的耽擱相互交替,形成一個(gè)精確的規(guī)律,這個(gè)規(guī)律往往會(huì)被人們所忽視,但又是人類行為所共同遵循的。
無論是郵件還是網(wǎng)頁搜索,人類的行為都遵循著冪律的法則,我們研究了圖書館中學(xué)生們借閱圖書的數(shù)據(jù),以及人們打電話所產(chǎn)生的相應(yīng)數(shù)據(jù),結(jié)果完全在我們的意料之中,冪律的法則與人類行為相伴相生,更與爆發(fā)點(diǎn)相伴相生。
不論我們觀察哪種人類活動(dòng),都會(huì)有相同的“爆發(fā)”理論出現(xiàn):長時(shí)間休息之后,就一定會(huì)出現(xiàn)短時(shí)間的密集活動(dòng),所有的一切都證明,爆發(fā),無處不在。
爆發(fā)改變了一切
牛頓的萬有引力定律之所以有極大的影響力,主要是能夠?qū)π行恰⒒鸺约靶l(wèi)星的運(yùn)行軌跡起到預(yù)測的作用。研究人員曾預(yù)測過新聞的生命周期為36分鐘,而事實(shí)上,大部分新聞的生命周期要比36分鐘長很多,甚至高達(dá)36小時(shí)。因此,解釋冪律法則正確的結(jié)果是這樣的:在瀏覽中意的網(wǎng)站時(shí),人們絕不會(huì)每小時(shí)點(diǎn)擊一次,而是在一個(gè)時(shí)間點(diǎn)上一個(gè)勁地點(diǎn)擊,過了數(shù)小時(shí)或數(shù)天后,或許還會(huì)瀏覽這個(gè)網(wǎng)站,累計(jì)的時(shí)間一定會(huì)超過36分鐘,從而保證我們看到最新的訊息。
總之,冪律思維不僅能在技術(shù)上體現(xiàn)出來,還能夠在現(xiàn)象上體現(xiàn)出來。這一方向,將隨著時(shí)間的發(fā)展和大數(shù)據(jù)的海量信息,具有越來越重大的意義。
- 最新書評(píng) 查看所有書評(píng)
-
- 發(fā)表書評(píng) 查看所有書評(píng)
-