在剛剛結(jié)束的“2012年中國計算機(jī)大會”上,“大數(shù)據(jù)”是出現(xiàn)頻率最高的一個詞,幾乎每個主講者、每場論壇都涉及這幾個字。同時,中國計算機(jī)學(xué)會也在大會舉行期間,正式成立了大數(shù)據(jù)專家委員會,中國工程院院士李國杰擔(dān)任主任。
什么是大數(shù)據(jù)?按照維基百科的說法,大數(shù)據(jù)指在一定時間內(nèi)無法用常規(guī)軟件對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。
2011年,《自然》雜志(Nature)出版??赋觯热裟軌蚋行У亟M織和使用大數(shù)據(jù),人類將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用。
美國政府把大數(shù)據(jù)看成是“未來的新石油”。2012年3月,美國奧巴馬政府公布了“大數(shù)據(jù)研發(fā)計劃”,旨在提高和改進(jìn)人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,進(jìn)而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國家安全。這是美國1993年宣布“信息高速公路”之后的又一重大科技發(fā)展部署。美國國家科學(xué)基金會、國防部、能源部等6個政府部門和機(jī)構(gòu)宣布投資兩億美元。
其實(shí),大數(shù)據(jù)早就在我們身邊。我們每天通過互聯(lián)網(wǎng)上傳或者下載大量視頻、圖片、文字,都在產(chǎn)生大量數(shù)據(jù),各種購物、社交網(wǎng)站更是大數(shù)據(jù)的集中之地。國際數(shù)據(jù)公司(IDC)的研究表明,全世界的社交網(wǎng)絡(luò)每天有2.5億張照片上傳。
2011年,全球數(shù)據(jù)總量為1.8ZB(10的21次方字節(jié)),其中75%來自個人。有人形象地計算了一下,這些數(shù)據(jù)如果用9GB的DVD光盤保存,疊起來的厚度是26萬公里,大約是地球到月球距離的三分之二。
不過,企業(yè)應(yīng)用還是大數(shù)據(jù)的主要推動者。生物、醫(yī)學(xué)、天文、環(huán)境、物理、工程、經(jīng)濟(jì)、互聯(lián)網(wǎng)等諸多領(lǐng)域涉及大數(shù)據(jù)的處理和應(yīng)用。李國杰院士對IBM、甲骨文、微軟、谷歌、亞馬遜、Facebook等企業(yè)進(jìn)行了分析。他發(fā)現(xiàn),自2005年以來,IBM投資160億美元進(jìn)行了30次與大數(shù)據(jù)有關(guān)的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價突破200美元大關(guān),3年之內(nèi)翻了3倍。華爾街早就開始招聘精通數(shù)據(jù)分析的天文學(xué)家和理論數(shù)學(xué)家來設(shè)計金融產(chǎn)品。IBM現(xiàn)在是全球數(shù)學(xué)博士的最大雇主,數(shù)學(xué)家正在將其數(shù)據(jù)分析的才能應(yīng)用于石油勘探、醫(yī)療健康等各個領(lǐng)域。eBay通過數(shù)據(jù)挖掘可以精確計算出廣告中的每一個關(guān)鍵字為公司帶來的回報。
大數(shù)據(jù)應(yīng)用也早已在商業(yè)領(lǐng)域大顯身手。金蝶國際軟件集團(tuán)首席科學(xué)家張良杰介紹,他們參與搭建的全國中小企業(yè)信息平臺,匯集了4000萬家企業(yè),通過對這些企業(yè)海量數(shù)據(jù)的挖掘和分析,能夠?qū)?jīng)濟(jì)運(yùn)行狀況作出準(zhǔn)確的預(yù)警,有助于國家相關(guān)部門作出應(yīng)對決策。
此外,張良杰還舉例說,在微觀經(jīng)濟(jì)領(lǐng)域,“大數(shù)據(jù)”的作用也越發(fā)凸顯。“美國一家公司把天氣預(yù)報的信息和數(shù)據(jù)在亞馬遜的云平臺上進(jìn)行處理,可以幫助農(nóng)業(yè)的種植者在特定季節(jié)中避免遭受氣象災(zāi)害,很好地保障他們的收益。在企業(yè)管理上,大數(shù)據(jù)可以為企業(yè)管理創(chuàng)新帶來活力。對前一段時間的業(yè)績情況分析,來決策下一步的投資、戰(zhàn)略部署、產(chǎn)品研發(fā)。”
國內(nèi)的淘寶、騰迅QQ、新浪微博既是大數(shù)據(jù)的產(chǎn)生者、應(yīng)用者,也是研究者。正是由于這些應(yīng)用,李國杰認(rèn)為:“大數(shù)據(jù)的工程技術(shù)研究已經(jīng)走在了科學(xué)前面。”
但是當(dāng)技術(shù)解決不了的問題越來越多時,就需要科學(xué)家找出共性的問題??墒强茖W(xué)家并不了解每個領(lǐng)域的特點(diǎn)和問題,目前各個領(lǐng)域中“數(shù)據(jù)界”的共性還不太清楚,所以李國杰提出來:“我覺得我們搞科學(xué),要放下身段、甘當(dāng)配角。在條件還不成熟的時候,計算機(jī)科學(xué)家應(yīng)虛心地當(dāng)一段時期的‘助手’。”
在科學(xué)家如何與企業(yè)界相結(jié)合、共同解決大數(shù)據(jù)問題上,香港中文大學(xué)教授華云生認(rèn)為:“現(xiàn)在情況復(fù)雜,不像以前,一個方案可以解決許多問題。大數(shù)據(jù)的研究要結(jié)合實(shí)際用戶問題,把問題、數(shù)據(jù)、平臺集中起來解決。但現(xiàn)在還是不清晰、不明確。”