大(dà)數據時代及數據挖掘的應用
發布日期:2013-03-07 浏覽量:14491

大(dà)數據時代及數據挖掘的應用

 

國網信息通信有限公司北(běi)京信息災備中(zhōng)心主任    劉軍   

國網信息通信有限公司北(běi)京信息災備中(zhōng)心常務副主任   呂俊峰

 

        随着社會的進步和信息通信技術的發展,信息系統在各行業、各領域快速拓展。這些系統采集、處理、積累的數據越來越多,數據量增速越來越快,以至用“海量、爆炸性增長”等詞彙已無法形容數據的增長速度。

       2011 5 月,全球知(zhī)名咨詢公司麥肯錫全球研究院發布了一(yī)份題爲《大(dà)數據:創新、競争和生(shēng)産力的下(xià)一(yī)個新領域》的報告。報告中(zhōng)指出,數據已經滲透到每一(yī)個行業和業務職能領域,逐漸成爲重要的生(shēng)産因素;而人們對于大(dà)數據的運用預示着新一(yī)波生(shēng)産率增長和消費(fèi)者盈餘浪潮的到來。2012 3 29 日,美國政府在白(bái)宮網站上發布了《大(dà)數據研究和發展倡議》,表示将投資(zī)2 億美元啓動“大(dà)數據研究和發展計劃”,增強從大(dà)數據中(zhōng)分(fēn)析萃取信息的能力。

        什麽是大(dà)數據?

       “大(dà)數據”到底有多大(dà)?根據研究機構統計,僅在 2011 年,全球數據增量就達到了 1.8ZB (即1.8 萬億 GB,相當于全世界每個人産生(shēng) 200GB以上的數據。這種增長趨勢仍在加速,據保守預計,接下(xià)來幾年中(zhōng),數據将始終保持每年 50%的增長速度。

        縱觀人類曆史,每一(yī)次劃時代的變革都是以新工(gōng)具的出現和應用爲标志(zhì)的。蒸汽機把人們從農業時代帶入了工(gōng)業時代,計算機和互聯網把人們從工(gōng)業時代帶入了信息時代,而如今大(dà)數據時代已經到來,它源自信息時代,又(yòu)是信息時代全方位的深化應用與延伸。大(dà)數據時代的生(shēng)産原材料是數據,生(shēng)産工(gōng)具則是大(dà)數據技術,是對信息時代所産生(shēng)的海量數據的挖掘和分(fēn)析,從而快速地獲取有價值信息的技術和應用。

        概括來講,大(dà)數據有三個特征,可總結歸納爲3V即量Vo l umeVa r i e tyVelocity量,數據容量大(dà),現在數據單位已經躍升至 ZB 級别。類,數據種類多,主要來自業務系統,例如社交網絡、電子商(shāng)務和物(wù)聯網應用。時,處理速度快,時效性要求高,從傳統的事務性數據到實時或準實時數據。

        什麽是數據挖掘?

        數據挖掘,又(yòu)稱爲知(zhī)識發現(KnowledgeDiscovery,是通過分(fēn)析每個數據,從大(dà)量數據中(zhōng)尋找其規律的技術。知(zhī)識發現過程通常由數據準備、規律尋找和規律表示 3 個階段組成。數據準備是從數據中(zhōng)心存儲的數據中(zhōng)選取所需數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法将數據集所含規律找出來;規律表示則是盡可能以用戶可理解的方式(如可視化)将找出的規律表示出來。

        “數據海量、信息缺乏”是相當多企業在數據大(dà)集中(zhōng)之後面臨的尴尬問題。目前,大(dà)多數事物(wù)型數據庫僅實現了數據錄入、查詢和統計等較低層次的功能,無法發現數據中(zhōng)存在的有用信息,更無法進一(yī)步通過數據分(fēn)析發現更高的價值。如果能夠對這些數據進行分(fēn)析,探尋其數據模式及特征,進而發現某個客戶、群體(tǐ)或組織的興趣和行爲規律,專業人員(yuán)就可以預測到未來可能發生(shēng)的變化趨勢。這樣的數據挖掘過程,将極大(dà)拓展企業核心競争力。例如,在網上購物(wù)時遇到的提示“浏覽了該商(shāng)品的人還浏覽了如下(xià)商(shāng)品”,就是在對大(dà)量的購買者“行爲軌迹”數據進行記錄和挖掘分(fēn)析的基礎上,捕捉總結購買者共性習慣行爲,并針對性地利用每一(yī)次購買機會而推出的銷售策略。

     數據挖掘在供電企業的應用前景

在電力行業,堅強智能電網的迅速發展使信息通信技術正以前所未有的廣度、深度與電網生(shēng)産、企業管理快速融合,信息通信系統已經成爲智能電網的“中(zhōng)樞神經”,支撐新一(yī)代電網生(shēng)産和管理發展。目前,國家電網公司已初步建成了國内領先、國際一(yī)流的信息集成平台。随着三地集中(zhōng)式數據中(zhōng)心的陸續投運,一(yī)級部署業務應用範圍的拓展,結構化和非結構化數據中(zhōng)心的上線運行,電網業務數據從總量和種類上都已初具規模。随着後續智能電表的逐步普及,電網業務數據将從時效性層面進一(yī)步豐富和拓展。大(dà)數據的“量類時”特性,已在海量、實時的電網業務數據中(zhōng)進一(yī)步凸顯,電力大(dà)數據分(fēn)析迫在眉睫。

        當前,電網業務數據大(dà)緻分(fēn)爲三類:一(yī)是電力企業生(shēng)産數據,如發電量、電壓穩定性等方面的數據;二是電力企業運營數據,如交易電價、售電量、用電客戶等方面的數據;三是電力企業管理數據,如 ERP、一(yī)體(tǐ)化平台、協同辦公等方面的數據。如能充分(fēn)利用這些基于電網實際的數據,對其進行深入分(fēn)析,便可以提供大(dà)量的高附加值服務。這些增值服務将有利于電網安全檢測與控制(包括大(dà)災難預警與處理、供電與電力調度決策支持和更準确的用電量預測),客戶用電行爲分(fēn)析與客戶細分(fēn),電力企業精細化運營管理等等,實現更科學的需求側管理。

        例如,在電力營銷環節,針對“大(dà)營銷”體(tǐ)系建設,以客戶和市場爲導向,省級集中(zhōng)的 95598客戶服務、計量檢定配送業務屬地化管理的營銷管理體(tǐ)系和 24 小(xiǎo)時面向客戶的營銷服務系統,可通過數據分(fēn)析改善服務模式,提高營銷能力和服務質量;以分(fēn)析型數據爲基礎,優化現有營銷組織模式,科學配置計量、收費(fèi)和服務資(zī)源,構建營銷稽查數據監控分(fēn)析模型;建立各種針對營銷的系統性算法模型庫,發現數據中(zhōng)存在的隐藏關系爲各級決策者提供多維的、直觀的、全面的、深入的分(fēn)析預測性數據進而主動把握市場動态,采取适當的營銷策略,獲得更大(dà)的企業效益,更好地服務于社會和經濟發展。此外(wài),還可以考慮在電力生(shēng)産環節,利用數據挖掘技術,在線計算輸送功率極限,并考慮電壓等因素對功率極限的影響,從而合理設置系統輸出功率,有效平衡系統的安全性和經濟性。

        公司具備非常好的從數據運維角度實現更大(dà)程度信息、知(zhī)識發現的條件和基礎,完全可以立足數據運維服務,創造數據增值價值,提供并衍生(shēng)多種服務。以數據中(zhōng)心爲紐帶,新型數據運維的成果将有可能作爲一(yī)種新的消費(fèi)形态與交付方式,給客戶帶來全新的使用體(tǐ)驗,打破傳統業務系統間各自爲陣的局面,進一(yī)步推動電網生(shēng)産和企業管理,從數據運維角度對企業生(shēng)産經營、管理以及堅強智能電網建設提供更有力、更長遠、更深入的支撐。