在農(nóng)業(yè)領(lǐng)域,硅谷有個(gè)氣候公司,從美國(guó)氣象局等數(shù)據(jù)庫(kù)中獲得幾十年的天氣數(shù)據(jù),將各地降雨、氣溫、土壤狀況與歷年農(nóng)作物產(chǎn)量的相關(guān)度做成精密圖表,預(yù)測(cè)農(nóng)場(chǎng)來(lái)年產(chǎn)量,向農(nóng)戶(hù)出售個(gè)性化保險(xiǎn)。在商業(yè)領(lǐng)域,沃爾瑪公司通過(guò)分析銷(xiāo)售數(shù)據(jù),了解顧客購(gòu)物習(xí)慣,得出適合搭配在一起出售的商品,還可從中細(xì)分顧客群體,提供個(gè)性化服務(wù)。在金融領(lǐng)域,華爾街“德溫特資本市場(chǎng)”公司分析3.4億微博賬戶(hù)留言,判斷民眾情緒,依據(jù)人們高興時(shí)買(mǎi)股票、焦慮時(shí)拋售股票的規(guī)律,決定公司股票的買(mǎi)入或賣(mài)出。阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財(cái)務(wù)健康和講究誠(chéng)信的企業(yè),對(duì)他們發(fā)放無(wú)需擔(dān)保的貸款。目前已放貸300多億元,壞賬率僅0.3%。
在醫(yī)療保健領(lǐng)域,“谷歌流感趨勢(shì)”項(xiàng)目依據(jù)網(wǎng)民搜索內(nèi)容分析全球范圍內(nèi)流感等病疫傳播狀況,與美國(guó)疾病控制和預(yù)防中心提供的報(bào)告對(duì)比,追蹤疾病的精確率達(dá)到97%。社交網(wǎng)絡(luò)為許多慢性病患者提供臨床癥狀交流和診治經(jīng)驗(yàn)分享平臺(tái),醫(yī)生借此可獲得在醫(yī)院通常得不到的臨床效果統(tǒng)計(jì)數(shù)據(jù)?;趯?duì)人體基因的大數(shù)據(jù)分析,可以實(shí)現(xiàn)對(duì)癥下藥的個(gè)性化治療。在社會(huì)安全管理領(lǐng)域,通過(guò)對(duì)手機(jī)數(shù)據(jù)的挖掘,可以分析實(shí)時(shí)動(dòng)態(tài)的流動(dòng)人口來(lái)源、出行,實(shí)時(shí)交通客流信息及擁堵情況。利用短信、微博、微信和搜索引擎,可以收集熱點(diǎn)事件,挖掘輿情,還可以追蹤造謠信息的源頭。美國(guó)麻省理工學(xué)院通過(guò)對(duì)十萬(wàn)多人手機(jī)的通話、短信和空間位置等信息進(jìn)行處理,提取人們行為的時(shí)空規(guī)律性,進(jìn)行犯罪預(yù)測(cè)。在科學(xué)研究領(lǐng)域,基于密集數(shù)據(jù)分析的科學(xué)發(fā)現(xiàn)成為繼實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)之后的第四個(gè)范例,基于大數(shù)據(jù)分析的材料基因組學(xué)和合成生物學(xué)等正在興起。
麥肯錫公司2011年報(bào)告推測(cè),如果把大數(shù)據(jù)用于美國(guó)的醫(yī)療保健,一年產(chǎn)生潛在價(jià)值3000億美元,用于歐洲的公共管理可獲得年度潛在價(jià)值2500億歐元;服務(wù)提供商利用個(gè)人位置數(shù)據(jù)可獲得潛在的消費(fèi)者年度盈余6000億美元;利用大數(shù)據(jù)分析,零售商可增加運(yùn)營(yíng)利潤(rùn)60%,制造業(yè)設(shè)備裝配成本會(huì)減少50%。
大數(shù)據(jù)技術(shù)的挑戰(zhàn)和啟示
目前,大數(shù)據(jù)技術(shù)的運(yùn)用仍存在一些困難與挑戰(zhàn),體現(xiàn)在大數(shù)據(jù)挖掘的四個(gè)環(huán)節(jié)中。首先在數(shù)據(jù)收集方面。要對(duì)來(lái)自網(wǎng)絡(luò)包括物聯(lián)網(wǎng)和機(jī)構(gòu)信息系統(tǒng)的數(shù)據(jù)附上時(shí)空標(biāo)志,去偽存真,盡可能收集異源甚至是異構(gòu)的數(shù)據(jù),必要時(shí)還可與歷史數(shù)據(jù)對(duì)照,多角度驗(yàn)證數(shù)據(jù)的全面性和可信性。其次是數(shù)據(jù)存儲(chǔ)。要達(dá)到低成本、低能耗、高可靠性目標(biāo),通常要用到冗余配置、分布化和云計(jì)算技術(shù),在存儲(chǔ)時(shí)要按照一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi),通過(guò)過(guò)濾和去重,減少存儲(chǔ)量,同時(shí)加入便于日后檢索的標(biāo)簽。第三是數(shù)據(jù)處理。有些行業(yè)的數(shù)據(jù)涉及上百個(gè)參數(shù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)、多實(shí)體和多空間之間的交互動(dòng)態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語(yǔ)義分析,從大量動(dòng)態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導(dǎo)出可理解的內(nèi)容。第四是結(jié)果的可視化呈現(xiàn),使結(jié)果更直觀以便于洞察。目前,盡管計(jì)算機(jī)智能化有了很大進(jìn)步,但還只能針對(duì)小規(guī)模、有結(jié)構(gòu)或類(lèi)結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分析,談不上深層次的數(shù)據(jù)挖掘,現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。
大數(shù)據(jù)技術(shù)的運(yùn)用前景是十分光明的。當(dāng)前,我國(guó)正處在全面建成小康社會(huì)征程中,工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務(wù)很重,建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,健全信息安全保障體系,推進(jìn)信息網(wǎng)絡(luò)技術(shù)廣泛運(yùn)用,是實(shí)現(xiàn)四化同步發(fā)展的保證。大數(shù)據(jù)分析對(duì)我們深刻領(lǐng)會(huì)世情和國(guó)情,把握規(guī)律,實(shí)現(xiàn)科學(xué)發(fā)展,做出科學(xué)決策具有重要意義,我們必須重新認(rèn)識(shí)數(shù)據(jù)的重要價(jià)值。