- 第5節(jié) 阿里云ODPS1:降低應(yīng)用門(mén)檻,人人都可以成為BAT
-
2014年7月8日,阿里云ODPS團(tuán)隊(duì)在一封題為“人人都可以成為BAT(百度、阿里巴巴、騰訊)”的公開(kāi)信里宣布:阿里云計(jì)算最重要的一款產(chǎn)品—ODPS,正式開(kāi)放商用。以下是公開(kāi)信全文:
阿里云計(jì)算最重要的一款產(chǎn)品—ODPS,正式開(kāi)放商用。從今天起,花個(gè)幾百塊錢(qián),人人都能來(lái)玩大數(shù)據(jù)。
簡(jiǎn)單來(lái)說(shuō),ODPS(Open Data Processing Service)是一項(xiàng)Web服務(wù),大家不用花大錢(qián)建數(shù)據(jù)中心,就能分析海量數(shù)據(jù)。我們測(cè)過(guò),100PB的數(shù)據(jù)任務(wù)可在6小時(shí)內(nèi)跑完。這個(gè)數(shù)據(jù)量相當(dāng)于1億部高清電影。
工業(yè)革命后的200多年里,人類(lèi)對(duì)物理資源的利用登峰造極。第一次信息革命過(guò)去70年了,我們對(duì)數(shù)據(jù)資源的利用卻只是剛開(kāi)了頭。Google、Facebook、阿里巴巴等先行一步,摸到了大數(shù)據(jù)的冰山一角。然而,人類(lèi)擁有的大部分?jǐn)?shù)據(jù),還無(wú)法產(chǎn)生價(jià)值。
如何讓數(shù)據(jù)產(chǎn)生價(jià)值?先得擁有大規(guī)模處理能力,然后才是挖掘、算法和分析。傳統(tǒng)的做法是這樣的:租個(gè)機(jī)房,買(mǎi)一堆昂貴的設(shè)備搭建數(shù)據(jù)倉(cāng)庫(kù),再請(qǐng)一幫技術(shù)人員來(lái)維護(hù)運(yùn)轉(zhuǎn)。一旦觸發(fā)bug,或者當(dāng)數(shù)據(jù)總量超過(guò)100TB時(shí),你的工程師們可能會(huì)被這些麻煩搞崩潰。
Hadoop開(kāi)源系統(tǒng)很偉大,大大降低了成本。阿里是中國(guó)玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業(yè)務(wù)的快速發(fā)展。不過(guò),自建
1 ODPS,開(kāi)放數(shù)據(jù)處理服務(wù)(Open Data Processing Service)是“飛天”平臺(tái)上的大規(guī)模分布式數(shù)據(jù)處理服務(wù),它以RESTfulAPI 的形式支持基于描述性查詢(xún)語(yǔ)言SQL 的數(shù)據(jù)處理,并提供MapReduce的并行計(jì)算框架。一個(gè)像樣的Hadoop集群,得百萬(wàn)元起步資金,專(zhuān)業(yè)的Hadoop人才更是稀缺。門(mén)檻還是太高。
有沒(méi)有更好的方案?從2009年年初,寫(xiě)下“飛天”第一行代碼時(shí),我們就堅(jiān)信這一方案存在。我們用了5年時(shí)間,寫(xiě)下250萬(wàn)行代碼,終于在自主研發(fā)的“飛天”平臺(tái)上成功搭建ODPS。我們把數(shù)據(jù)海洋里的“水”灌進(jìn)ODPS,設(shè)定好一套參數(shù),擰開(kāi)“水龍頭”,出來(lái)的就是“鮮榨果汁”!
100年前,福特推出了全球第一條流水生產(chǎn)線。一個(gè)個(gè)零部件扔進(jìn)流水線,90分鐘后,一輛嶄新的汽車(chē)擺在面前。不知道福特工程師們當(dāng)時(shí)是怎樣的心情。當(dāng)我們擰開(kāi)ODPS的“水龍頭”時(shí),感受大抵如此。這個(gè)比喻還不完全恰當(dāng),福特生產(chǎn)線只為福特服務(wù),一條生產(chǎn)線也只能生產(chǎn)一種車(chē)型。而ODPS任何人都可以來(lái)用,“水龍頭”里流出來(lái)的“果汁”,隨著原始數(shù)據(jù)和算法的改變可以千變?nèi)f化。
我們來(lái)看看ODPS都可以榨哪些“果汁”吧。
ODPS之前一直在阿里內(nèi)部試用。第一只“小白鼠”是阿里小貸。你見(jiàn)過(guò)敢貸1塊錢(qián)給你的銀行嗎?如今,超過(guò)36萬(wàn)人從阿里小貸借款,最小貸款額1塊錢(qián),并實(shí)現(xiàn)3分鐘申請(qǐng)、1秒放款、0人工干預(yù)。要做到這一點(diǎn),阿里小貸每天得處理30PB數(shù)據(jù),包括店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),運(yùn)算100多個(gè)數(shù)據(jù)模型,甚至還得測(cè)評(píng)小企業(yè)主對(duì)假設(shè)情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢(qián)。什么?你問(wèn)普通銀行的貸款成本?先乘個(gè)1000再說(shuō)。
華大基因,是2003年國(guó)內(nèi)抗SARS研究的主力軍。去年,我們邀請(qǐng)華大在ODPS上試了下基因測(cè)序,耗時(shí)不到傳統(tǒng)方式的十分之一。2010年,歐洲E.coli污染危機(jī),測(cè)序和組裝耗時(shí)兩天以上。如果用ODPS,只要幾小時(shí)甚至幾十分鐘。一旦未來(lái)真有生物危機(jī)爆發(fā),人類(lèi)可以贏得寶貴的破譯時(shí)間。
這么高精尖的領(lǐng)域你可能覺(jué)得太遙遠(yuǎn)。說(shuō)說(shuō)當(dāng)前最火的世界杯吧。Google拿英國(guó)體育數(shù)據(jù)提供商O(píng)pta Sports的數(shù)據(jù),在BigQuery上跑了跑,成功預(yù)測(cè)了本屆世界杯8強(qiáng)名單。ODPS是一款跟Google BigQuery類(lèi)似的產(chǎn)品,如果哪位有數(shù)據(jù),也可以來(lái)算一算接下來(lái)的比賽。
公共領(lǐng)域的數(shù)據(jù)挖掘,可以用ODPS嗎?當(dāng)然!結(jié)合中國(guó)氣象局的精準(zhǔn)預(yù)報(bào)數(shù)據(jù),高德地圖不久后就能告訴你:“前方道路已嚴(yán)重積水,您的車(chē)輛駛?cè)肟赡軙?huì)遭水淹,建議繞道行駛。”如今,每盒藥品上都有一張電子身份證,從生產(chǎn)、流通、儲(chǔ)存、配送、銷(xiāo)售到使用,全過(guò)程的數(shù)據(jù)都跑在ODPS上。一旦發(fā)現(xiàn)問(wèn)題藥品,監(jiān)管部門(mén)可以立即采取措施。我們期待未來(lái)每一桶油、每一道菜的數(shù)據(jù)都跑在ODPS上,食品安全問(wèn)題需要通過(guò)創(chuàng)新的方式來(lái)解決。
生產(chǎn)電飯煲的工廠,應(yīng)該跟ODPS沒(méi)什么關(guān)系吧?別說(shuō),未來(lái)還真可能有關(guān)系。手機(jī)、電視、手表、汽車(chē)、空調(diào)……這些工業(yè)時(shí)代的經(jīng)典產(chǎn)品,現(xiàn)在都變成了互聯(lián)網(wǎng)終端。誰(shuí)說(shuō)電飯煲、鞋子、衣服不會(huì)呢?如果未來(lái)的制造工廠都變成互聯(lián)網(wǎng)公司,數(shù)據(jù)將成為最基本的生產(chǎn)要素。你即使不懂算法、不會(huì)建模、不會(huì)分析,也沒(méi)有關(guān)系,那些有數(shù)據(jù)分析能力的公司會(huì)幫你做。
眼下,阿里巴巴的各項(xiàng)數(shù)據(jù)業(yè)務(wù)都在用ODPS“榨果汁”,比如,淘寶在算你最中意哪個(gè)淘女郎,天貓?jiān)谒隳闶裁磿r(shí)候想吃車(chē)?yán)遄,菜鳥(niǎo)在算卡車(chē)走哪條路可能會(huì)被雷劈,支付寶在算你何時(shí)會(huì)從屌絲變成高富帥。如果大家也想“榨果汁”,歡迎來(lái)試。ODPS的“水龍頭”就裝在阿里云官網(wǎng)aliyun.com上,一個(gè)月內(nèi)免費(fèi)。
The World Is Flat. 從某種意義上而言,人人都可以成為BAT,哪怕你的公司只有幾號(hào)人。我們希望,在技術(shù)這件事情上,大家變得更加平等!
阿里云ODPS團(tuán)隊(duì)
2014年7月8日
ODPS是基于阿里巴巴自主知識(shí)產(chǎn)權(quán)的云計(jì)算平臺(tái)構(gòu)建的數(shù)據(jù)存儲(chǔ)與分析系統(tǒng),以云計(jì)算服務(wù)的方式實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)、分享與離線處理,通過(guò)控制集權(quán)來(lái)控制包括幾千臺(tái)服務(wù)器大集群的管理而實(shí)現(xiàn)規(guī)模擴(kuò)展,是大規(guī)模分布式計(jì)算平臺(tái)“飛天”的核心組成部分。
云計(jì)算與大數(shù)據(jù)之間的關(guān)系,就如同一枚硬幣的正反兩面一樣,二者之間的結(jié)合能夠?yàn)橛脩?hù)提供云服務(wù),使傳統(tǒng)的硬件與軟件相結(jié)合的IT模式發(fā)生翻天覆地的變化。
2014年1月,阿里云ODPS開(kāi)始公測(cè);2014年3月開(kāi)始的阿里巴巴大數(shù)據(jù)競(jìng)賽中,阿里首次將ODPS和阿里的天池平臺(tái)開(kāi)放給參賽的大學(xué)生;2014年7月,阿里云ODSP正式開(kāi)放商用。阿里云將ODPS從內(nèi)部使用的工具變成面向社會(huì)開(kāi)放的大數(shù)據(jù)平臺(tái),降低了大數(shù)據(jù)在資金、人才和應(yīng)用方面的門(mén)檻。此舉如同其在公開(kāi)信中所說(shuō)的一樣:“在技術(shù)這件事情上,大家變得更加平等!”
◆大數(shù)據(jù)平臺(tái)即開(kāi)即用
阿里云ODPS如同流水線一般,使得人們對(duì)IT資源的取用更加自由,能夠得到想要的各類(lèi)數(shù)據(jù)分析結(jié)果。而且,這條流水線除使用方便外,速度也相當(dāng)驚人,它能夠在6小時(shí)內(nèi)處理100PB數(shù)據(jù)。如果你覺(jué)得這種描述過(guò)于抽象的話,我們可以進(jìn)行一下?lián)Q算:100PB 大約相當(dāng)于1億部高清電影。目前,在全球范圍內(nèi)能夠掌握這種技術(shù)的公司屈指可數(shù)。
過(guò)去,如果一個(gè)公司需要進(jìn)行大數(shù)據(jù)方面的處理,不僅需要花費(fèi)大量資金建立數(shù)據(jù)中心,還需要聘請(qǐng)專(zhuān)業(yè)的技術(shù)人員,即便如此,這種方式能夠處理的數(shù)據(jù)總量也是有界限的。而Apache基金會(huì)開(kāi)發(fā)的Hadoop,雖然更加可靠、高效、可伸縮,但是建立一個(gè)Hadoop集群仍然離不開(kāi)高昂的花費(fèi)和專(zhuān)業(yè)的技術(shù)人員。
阿里云ODPS,不僅讓企業(yè)和個(gè)人能夠以更低的成本使用大數(shù)據(jù)平臺(tái)和工具,還大大降低了大數(shù)據(jù)的應(yīng)用門(mén)檻。目前,阿里云ODPS采用按使用量收費(fèi)的模式,0.3元1GB,即開(kāi)即用,一個(gè)月內(nèi)免費(fèi)。也就是說(shuō),一般用戶(hù)平均每月只需花費(fèi)數(shù)百元就可以享受到阿里云ODPS服務(wù)。
阿里云ODPS在對(duì)外商用之前,是阿里集團(tuán)自用的一個(gè)大數(shù)據(jù)平臺(tái),其第一只“小白鼠”是阿里小貸。在ODPS平臺(tái)的協(xié)助下,目前阿里小貸已經(jīng)為超過(guò)36萬(wàn)的人提供了借款,最小貸款額1塊錢(qián),并能夠?qū)崿F(xiàn)3分鐘申請(qǐng)、1秒放款、0人工干預(yù)。
而在這個(gè)過(guò)程中,ODPS每天需要處理30PB數(shù)據(jù),包括店鋪等級(jí)、收藏、評(píng)價(jià)等800億個(gè)信息項(xiàng),涉及100多個(gè)數(shù)據(jù)模型的運(yùn)算,甚至還得測(cè)評(píng)小企業(yè)主對(duì)假設(shè)情景的掩飾和撒謊程度……
在阿里小貸試用成功后,淘寶、支付寶等阿里巴巴最核心的數(shù)據(jù)業(yè)務(wù)也紛紛開(kāi)始嘗試ODPS,F(xiàn)在,阿里云ODPS已經(jīng)更加成熟和完善,除阿里集團(tuán)外,華大基因以及一些公共領(lǐng)域也已經(jīng)在ODPS平臺(tái)上進(jìn)行測(cè)試。未來(lái),也許電飯煲等制造企業(yè)都需要ODPS的一臂之力了。
◆“云”與大數(shù)據(jù)相輔相成
為了尋找數(shù)據(jù)處理和應(yīng)用的更佳解決方案,2009年年初開(kāi)始,阿里云ODPS的團(tuán)隊(duì)便開(kāi)始了探索。阿里的工程師們經(jīng)過(guò)5年的磨合,貢獻(xiàn)了250萬(wàn)行代碼后,終于在自主研發(fā)的“飛天”平臺(tái)上成功搭建了ODPS。“飛天”是阿里云計(jì)算2009年研發(fā)的一款分布式系統(tǒng)軟件,ODSP開(kāi)始作為“飛天”平臺(tái)的一個(gè)重要組成模塊,開(kāi)始主要被用于阿里集團(tuán)內(nèi)部的海量結(jié)構(gòu)化數(shù)據(jù)的處理和分析。
隨著技術(shù)不斷成熟和發(fā)展,目前,阿里云ODPS的優(yōu)勢(shì)已經(jīng)愈來(lái)愈明顯:
(1)高速海量運(yùn)算唾手可得
以往的數(shù)據(jù)處理,盡管需耗費(fèi)大量的資金和人才成本,但在數(shù)據(jù)的處理過(guò)程中,當(dāng)數(shù)據(jù)持續(xù)增加時(shí),依然會(huì)不可避免地需要面對(duì)存儲(chǔ)規(guī)模、計(jì)算延遲等方面的問(wèn)題。而阿里云ODPS可以根據(jù)用戶(hù)輸入的數(shù)據(jù)自動(dòng)擴(kuò)展集群的存儲(chǔ)和計(jì)算能力,使數(shù)據(jù)的處理和分析更為順暢,讓數(shù)據(jù)的價(jià)值得到最大限度的發(fā)揮。
(2)ODPS服務(wù)即開(kāi)即用
與以往的數(shù)據(jù)處理服務(wù)相比,阿里云ODPS的門(mén)檻更低,需要的資金和技術(shù)成本也更低,用戶(hù)使用ODPS時(shí),不用額外擔(dān)心集群配置等問(wèn)題,通過(guò)比較簡(jiǎn)單的操作,便能夠得到數(shù)據(jù)的處理和分析結(jié)果。
(3)數(shù)據(jù)存儲(chǔ)安全有保障
為了保證用戶(hù)數(shù)據(jù)的安全性,阿里云ODPS采用了三重備份、讀寫(xiě)請(qǐng)求鑒權(quán)、應(yīng)用沙箱、系統(tǒng)沙箱等不同層次的數(shù)據(jù)存儲(chǔ)和訪問(wèn)安全機(jī)制,最大限度地保證了用戶(hù)的數(shù)據(jù)不會(huì)丟失、泄露或被他人竊取。
(4)實(shí)現(xiàn)多用戶(hù)協(xié)作
為了便于同一企業(yè)的多名數(shù)據(jù)分析師協(xié)同工作,阿里云ODPS設(shè)置了不同的數(shù)據(jù)訪問(wèn)策略。在其訪問(wèn)策略中,每位用戶(hù)只能根據(jù)個(gè)人被授予的權(quán)限訪問(wèn)數(shù)據(jù),在保證效率的前提下盡可能地保障數(shù)據(jù)的安全。
(5)按使用量付費(fèi)
阿里云ODPS采用按使用量收費(fèi)的模式,比以往的數(shù)據(jù)處理服務(wù),更能夠有效地降低數(shù)據(jù)使用成本。
◆ODSP需要一個(gè)生態(tài)系統(tǒng)
雖然我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,但國(guó)內(nèi)的大數(shù)據(jù)服務(wù)還非常欠缺。然而,不管是企業(yè)還是個(gè)人,都有數(shù)據(jù)處理的需要,所以,大數(shù)據(jù)公共服務(wù)是大數(shù)據(jù)發(fā)展歷程中的一個(gè)里程碑。目前,阿里云在北京、杭州、青島、香港等多地都擁有數(shù)據(jù)中心節(jié)點(diǎn),能夠?yàn)榘⒗锏拇髷?shù)據(jù)公共服務(wù)提供有力支撐。
阿里云ODPS雖然盡可能地降低了傳統(tǒng)大數(shù)據(jù)處理的資金和人才門(mén)檻,但是ODPS并不是每個(gè)人都可以使用的。一方面,用戶(hù)需要對(duì)數(shù)據(jù)具有一定的敏感度,具備基本的數(shù)據(jù)處理和分析能力,并具備業(yè)務(wù)洞察力;另一方面,ODPS是一個(gè)計(jì)算平臺(tái),需要一定的使用成本,而且需要不同的合作伙伴進(jìn)來(lái)提供不同的工具,將其效果慢慢疊加。所以,把大數(shù)據(jù)變得“可用”和“平民化”是阿里云ODPS眼下迫切需要解決的問(wèn)題。
目前,阿里云ODPS不僅為阿里集團(tuán)的大部分?jǐn)?shù)據(jù)業(yè)務(wù)提供服務(wù),而且投入商用后,還為第三方軟件服務(wù)商和品牌商提供大數(shù)據(jù)計(jì)算、挖掘、存儲(chǔ)等云環(huán)境開(kāi)發(fā)服務(wù)。但是,要建設(shè)一個(gè)具有一定規(guī)模的生態(tài)體系,啟動(dòng)整個(gè)大數(shù)據(jù)生態(tài)圈還要花費(fèi)一段時(shí)間,需要吸引更多的合作伙伴。
由于阿里云ODPS的定位是云計(jì)算基礎(chǔ)數(shù)據(jù)服務(wù)提供商,其擁有的是平臺(tái)服務(wù)和大數(shù)據(jù)計(jì)算服務(wù),而不擁有數(shù)據(jù),所以,建立一個(gè)由數(shù)據(jù)生產(chǎn)者、消費(fèi)者、加工者和服務(wù)應(yīng)用供應(yīng)商組成的整個(gè)生態(tài)系統(tǒng),或許才是阿里云長(zhǎng)期以來(lái)的終極戰(zhàn)略目標(biāo)。
與傳統(tǒng)的IT廠商相比,阿里云打造大數(shù)據(jù)生態(tài)圈的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:
(1)傳統(tǒng)廠商提供的是虛擬化加SAAS的服務(wù),阿里云單純提供服務(wù),而且其服務(wù)是彈性的、擴(kuò)容的、價(jià)格更低。世界范圍內(nèi),能夠提供這樣服務(wù)的只有亞馬遜、阿里巴巴和谷歌。
(2)在互聯(lián)網(wǎng)技術(shù)革命的推動(dòng)下,如今互聯(lián)網(wǎng)的架構(gòu)和軟件搭建的方式更加高效、實(shí)用,阿里云具有明顯的時(shí)代背景優(yōu)勢(shì)。
(3)雖然阿里巴巴的硬件并不如IDC的運(yùn)營(yíng)商和電信運(yùn)營(yíng)商那樣強(qiáng)大,但是阿里巴巴提高了技術(shù)門(mén)檻,將上千乃至上萬(wàn)臺(tái)機(jī)器協(xié)同聯(lián)結(jié)在了一起。
◆有沒(méi)有免費(fèi)的可能?
雖然阿里云ODPS已經(jīng)大大降低了數(shù)據(jù)處理的成本,但如同殺毒軟件發(fā)展到一定階段后開(kāi)啟了免費(fèi)的大門(mén)一樣,人們對(duì)云計(jì)算也有同樣的期待。
事實(shí)上,從2013年開(kāi)始,云計(jì)算服務(wù)已經(jīng)開(kāi)始了固定的降價(jià)。這主要是因?yàn)殡S著市場(chǎng)的發(fā)展,具有了規(guī)模效應(yīng)后,硬件的成本便降低了,而軟件變得更為高效。
阿里巴巴方面,阿里云ODPS為新用戶(hù)提供了一定免費(fèi)的額度,但目前并不能做到整體免費(fèi),因?yàn)槠浞⻊?wù)的提供會(huì)涉及上百萬(wàn)臺(tái)或者幾百萬(wàn)臺(tái)的機(jī)器,所以并不具有免費(fèi)的條件。但是,從垂直方向來(lái)看,如果通過(guò)其他服務(wù)來(lái)收費(fèi)的話,云計(jì)算可以作為增值服務(wù)免費(fèi)送給客戶(hù)。
大數(shù)據(jù)時(shí)代的到來(lái),使阿里云ODPS應(yīng)運(yùn)而生。雖然最初在技術(shù)的突破方面遭遇了重重難關(guān),但ODPS最終還是成功地投入了商用,這不僅是阿里集團(tuán)的重要戰(zhàn)略部署,更對(duì)整個(gè)大數(shù)據(jù)時(shí)代具有里程碑式的意義。
不過(guò),接下來(lái),阿里云ODPS面對(duì)的挑戰(zhàn)也依然不少。首當(dāng)其沖的便是對(duì)非結(jié)構(gòu)數(shù)據(jù)的支持。ODPS更擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),不能處理非結(jié)構(gòu)化數(shù)據(jù),但目前需要處理的數(shù)據(jù)主要是交易數(shù)據(jù)和用戶(hù)行為數(shù)據(jù),大多數(shù)都是結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),所以O(shè)DPS需要在非結(jié)構(gòu)化數(shù)據(jù)的處理方面做更深層次的探索。另外,ODPS雖然已經(jīng)可以把各個(gè)不同的計(jì)算模型放到“飛天”平臺(tái)上,但具體到實(shí)踐當(dāng)中,還有很多的問(wèn)題需要思考和解決。
- 最新書(shū)評(píng) 查看所有書(shū)評(píng)
-
- 發(fā)表書(shū)評(píng) 查看所有書(shū)評(píng)
-