在信息爆炸的大數(shù)據(jù)時代,要在紛繁雜亂的數(shù)據(jù)中理出有用信息的難度就像要重新拼起一張撕碎了的世界地圖一樣困難,而本書就如同地圖背面的人像,告訴你如何認(rèn)識大數(shù)據(jù),并快速地拼回另一面的世界地圖。
《大數(shù)據(jù)時代》由維克托·邁爾-舍恩伯格與肯尼斯·庫克耶合著,前者被譽(yù)為“大數(shù)據(jù)時代的預(yù)言家”,是最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學(xué)家之一,他不僅是眾多世界知名企業(yè)信賴的信息權(quán)威與顧問,也是眾多機(jī)構(gòu)和國家政府高層的信息政策智囊;后者是《經(jīng)濟(jì)學(xué)人》數(shù)據(jù)編輯,也是CNN、BBC和NPR的定期商業(yè)和技術(shù)評論員之一。
早前火熱的“云計(jì)算”、“物流網(wǎng)”只是露出來的冰山,而在冰面下就是以TB(240)、PB(250)、EB(260)乃至ZB(270)為計(jì)算量級的大數(shù)據(jù)。本書認(rèn)為大數(shù)據(jù)是人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情,是在信息技術(shù)高度發(fā)達(dá)后,基于新工具下新的解決問題思路,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法完成的。大數(shù)據(jù)時代對我們的生活,以及與世界交流的方式都提出了挑戰(zhàn)——推翻了向來我們做決定和理解現(xiàn)實(shí)的因果關(guān)系,轉(zhuǎn)移到相關(guān)關(guān)系,即只需要知道是什么,而不需要知道為什么。
說到大數(shù)據(jù),必須先了解之前的“小數(shù)據(jù)”時代。鑒于工具及方法的局限,之前只有教會或者政府才能做到大規(guī)模的數(shù)據(jù)采集并進(jìn)行分析,但成本頗高并且時效性差。為解決問題,統(tǒng)計(jì)學(xué)家們發(fā)揮出作用,提出以隨機(jī)采樣的方式來替代全數(shù)據(jù)采集,不過其成功取決于樣本選擇的隨機(jī)性,但實(shí)際上非常難以實(shí)現(xiàn),一旦采樣過程存在任何偏見,分析結(jié)果就會相去甚遠(yuǎn)。來到大數(shù)據(jù)時代,由于有了足夠的數(shù)據(jù)處理和存儲能力,加上最先進(jìn)的分析技術(shù),就能做到放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù),即采取全數(shù)據(jù)模式“樣本=總體”。更多的數(shù)據(jù)帶來了更雜的聲音,但大數(shù)據(jù)允許不精確,并認(rèn)為“執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物,只有接受不精確,才能打開一扇從未涉足的世界的窗戶”。
大數(shù)據(jù)將引起思維的變革,并在思維變革的帶動下,將產(chǎn)生新的商業(yè)變革,“量化一切”成為數(shù)據(jù)化的核心:不僅可以將文字變成數(shù)據(jù),地理方位乃至情緒都可以數(shù)據(jù)化了,這便成了全新的視角——將世界看作信息,看作可以理解的數(shù)據(jù)的海洋,如何利用海量數(shù)據(jù)就成為新的商業(yè)競爭領(lǐng)域。數(shù)據(jù)創(chuàng)新的“六脈神劍”——數(shù)據(jù)的再利用、重組、擴(kuò)展、折舊、廢氣和開放帶來全新的商業(yè)模式,如何給數(shù)據(jù)估值將可能改變目前現(xiàn)有的會計(jì)準(zhǔn)則。在大數(shù)據(jù)時代,價(jià)值鏈上的3大構(gòu)成公司將把握住未來的進(jìn)入門檻,傳統(tǒng)公司如何在其中分杯羹將面臨巨大挑戰(zhàn)。
大數(shù)據(jù)帶來不僅是各種便利及機(jī)會,同樣也會讓我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博竊取著我們的社交關(guān)系網(wǎng)。為此,作者提出從4個方面對大數(shù)據(jù)時代進(jìn)行管理變革:一是個人隱私的保護(hù),從個人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任;二是個人可以并應(yīng)該為他們的行為而非傾向負(fù)責(zé);三是培養(yǎng)專業(yè)的數(shù)據(jù)算法師群體以監(jiān)察相關(guān)公司來維護(hù)公眾信任;四是就像反對其他商業(yè)壟斷一樣反對數(shù)據(jù)壟斷大亨。
書中豐富翔實(shí)的案例則是另一個看點(diǎn)。引言說到谷歌公司在2009年比美國國家疾控中心更早知道甲型H1N1流感的爆發(fā)時間、地域就抓住了讀者的好奇心;蘋果之父喬布斯是全球第一個擁有自身整個基因密碼的人;美國Target百貨公司在完全不和顧客溝通的情況下比女兒的父親更早知道女兒懷孕的信息;印象最讓我深刻的是,ReCaptcha項(xiàng)目在利用人們上網(wǎng)常遇到輸入驗(yàn)證碼的機(jī)會,將需要掃描文件中有待人工辨識和解釋的模糊單詞發(fā)給輸入者輸入確認(rèn),后來谷歌收購了該項(xiàng)目公司后用于其圖書掃描項(xiàng)目,每年節(jié)省的人工費(fèi)用就超過10億美元。