
文 李夢娟 蔡一煒
大數(shù)據(jù)時代,人們不滿足于依靠數(shù)據(jù)隨機抽樣和采集得出結果,大數(shù)據(jù)時代的數(shù)據(jù)處理過程,不僅注重微觀的精確性,還更加關注用粗略、估算的方式獲得的宏觀層面的各種關系;不僅注重數(shù)據(jù)之間的因果關系,還更加關注事物之間的相關關系,從而改變?nèi)藗儗ι鐣徒?jīng)濟等多方面的認知。大數(shù)據(jù)的價值在于數(shù)據(jù)的深度挖掘和應用,并已經(jīng)應用于諸多領域。
尋找海量數(shù)據(jù)的關聯(lián)
數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。人們有時并不知道數(shù)據(jù)庫中數(shù)據(jù)之間的關聯(lián)函數(shù),即便知道也是不確定的、欠缺系統(tǒng)性歸納的關聯(lián)函數(shù)。因此,關聯(lián)分析生成的規(guī)則帶有一定的可信度,通過關聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)兩個或多個變量之間有趣的關聯(lián)或相關聯(lián)系。
加州大學圣塔芭芭拉分校計算機科學系教授阿格拉沃爾(A?鄄grawal)等研究專家于1993年最早提出了挖掘顧客交易數(shù)據(jù)庫中各變量之間的關聯(lián)規(guī)則問題,以后的研究人員對關聯(lián)規(guī)則的挖掘問題進行了大量的研究,并對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想和處理方法,以提高算法挖掘規(guī)則的效率。當前,數(shù)據(jù)關聯(lián)挖掘的相關關聯(lián)規(guī)則和研究成果已經(jīng)廣泛應用于實踐。數(shù)據(jù)挖掘通過對大量數(shù)據(jù)的分析,揭示出數(shù)據(jù)之間隱藏的關系、模式和趨勢,從而為決策者提供新的知識或信息,推動人類認知范圍從“已知”擴大到“未知”,從“過去”推向“將來”,更好地滿足各種決策活動。
美國零售巨頭沃爾瑪公司通過數(shù)據(jù)分析發(fā)現(xiàn),跟尿布一起搭配銷售最多的商品竟然是啤酒。通過對兩種商品銷售數(shù)據(jù)關系的分析,發(fā)現(xiàn)兩者存在的關聯(lián)性在于年輕的父親去購買嬰兒尿布時,會有30%至40%的父親順便買點啤酒來犒勞自己。之后,沃爾瑪公司調(diào)整銷售策略,將尿布和啤酒放在一起進行銷售,使兩者的銷售量大為增加。
服務于生產(chǎn)經(jīng)營決策
大數(shù)據(jù)能夠服務于預測和決策。人們根據(jù)大數(shù)據(jù)來探尋事物之間的關聯(lián)性,從而提升判斷能力和決策有效性。大數(shù)據(jù)已經(jīng)成為人們優(yōu)化決策的必要工具,大數(shù)據(jù)分析也成為推動科學決策的一種科學方法。例如,美國醫(yī)生已經(jīng)利用計算機大數(shù)據(jù)分析進行醫(yī)療方案的優(yōu)化選擇,并推動醫(yī)療服務更加有效。華爾街“德溫特資本市場”公司首席執(zhí)行官保羅·霍廷通過利用電腦程序分析全球34億個網(wǎng)絡賬戶的留言判斷民眾情緒,并給情緒打分,最后通過情緒打分結果決定如何處理手中的股票。其基本判斷原則是情緒好壞與股票買賣行為有關,情緒好時會快速買入股票,情緒壞時會拋售股票。通過這種分析,他在當年第一季度獲得了7%的投資收益率。無獨有偶,Data Sift(社交媒體監(jiān)測平臺)監(jiān)測Facebook(臉譜)首次公開募股(IPO)當天Twitter(推特)上的情感傾向與Facebook(臉譜)股價波動的關聯(lián)性,通過監(jiān)測發(fā)現(xiàn):情感變化會影響Facebook的股價,當情感轉向負面時,股價會下跌,當情感轉向正面時,股價會上升。BM(北京美福潤醫(yī)藥科技公司)通過分析藥品、價格、運輸里程之間的關系,降低了昂貴藥品的庫存成本,而將節(jié)省的成本用于支付藥品的空運費用,從而改善了整個藥品分銷網(wǎng)絡的績效。上述案例分析表明,大數(shù)據(jù)及其分析手段,可以輔助人們做出行為決策,提高決策的準確性,并提高運營效率。
優(yōu)化社會經(jīng)濟“生態(tài)圈”
大數(shù)據(jù)在本質上為人們提供了一種全新分析社會經(jīng)濟“生態(tài)圈”的方法。例如,麥當勞、肯德基以及蘋果公司等旗艦專賣店的選址決策都是建立在大數(shù)據(jù)分析基礎之上的。通用電氣公司利用物聯(lián)網(wǎng)收集各個業(yè)務環(huán)節(jié)的數(shù)據(jù),提升生產(chǎn)經(jīng)營效率;通過軟件和技術服務對機器實施維護和升級,實現(xiàn)財務利益的精打細算,每年增加收益400億美元。沃爾瑪公司通過數(shù)據(jù)挖掘,重塑并優(yōu)化了供應鏈,亞馬遜等也通過對海量數(shù)據(jù)的掌握和分析,描繪出銷售環(huán)境“生態(tài)圈”,為用戶提供更加專業(yè)化、個性化的服務。
大數(shù)據(jù)本身也成為各個產(chǎn)業(yè)發(fā)展的重要支撐,企業(yè)管理層通過對消費者需求進行數(shù)據(jù)分析,能夠提供更加符合消費者需求的產(chǎn)品,從而優(yōu)化整個產(chǎn)業(yè)鏈,延長產(chǎn)品的生命周期,推動產(chǎn)業(yè)分工和未來更加細化的發(fā)展,降低企業(yè)運行成本和風險。大數(shù)據(jù)已經(jīng)成為產(chǎn)業(yè)轉型升級的重要驅動因素。大數(shù)據(jù)分析,將提升優(yōu)化產(chǎn)品和產(chǎn)業(yè)的經(jīng)濟“生態(tài)圈”,推動提升企業(yè)和產(chǎn)業(yè)的價值創(chuàng)造能力。
提升社會智能系統(tǒng)能力
大數(shù)據(jù)在社會服務領域應用廣泛,如政府管理城市,實現(xiàn)科學化治理,皆離不開大數(shù)據(jù)管理平臺,大數(shù)據(jù)也為人類生活創(chuàng)造前所未有可量化的維度。一方面,數(shù)據(jù)的互通互聯(lián)使建設智慧城市成為可能,是智慧城市運行維護、管理、決策、服務的核心技術;另一方面,大數(shù)據(jù)將提高政府在城市管理、運行方面的能力,支撐著智能交通、智能醫(yī)療、智能電網(wǎng)、物聯(lián)網(wǎng)等一系列的智能化社會服務。這不僅能夠優(yōu)化城市管理布局,更能提高服務社會能力,節(jié)省更多的社會資源。譬如,在智能電網(wǎng)方面,智能電表每隔5分鐘就從用戶終端讀取一次數(shù)據(jù),從而產(chǎn)生電力行業(yè)的大數(shù)據(jù)。通過獲取人們的用電行為,電力企業(yè)將有助于優(yōu)化電力的生產(chǎn)、分配及消耗,有助于實現(xiàn)對電網(wǎng)系統(tǒng)的安全控制,實現(xiàn)節(jié)能減排。大數(shù)據(jù)也能幫助用戶合理安排用電計劃,改變用電時間,降低用電成本。除此之外,智能醫(yī)療系統(tǒng)利用大數(shù)據(jù),不僅可以預測醫(yī)療人員的培養(yǎng)、醫(yī)療機構的配置,還能夠更好地幫助政府制定公共衛(wèi)生政策,提高整個社會的衛(wèi)生健康水平。
隨著大數(shù)據(jù)技術的不斷發(fā)展,大數(shù)據(jù)應用領域越來越廣泛,大數(shù)據(jù)已經(jīng)滲透進經(jīng)濟、社會管理的各個領域。大數(shù)據(jù)技術使人們更加便捷地獲得可靠信息,為整個社會創(chuàng)造價值、創(chuàng)新商業(yè)模式和管理方式起到重要的支撐作用,進而成為社會進步的重要引擎。