隨著IT和通信技術(shù)全面融入社會生活,每天產(chǎn)生的海量數(shù)據(jù)中蘊藏了巨大價值,數(shù)據(jù)正在成為企業(yè)的戰(zhàn)略資產(chǎn)。從海量數(shù)據(jù)中獲得新的認(rèn)知、方法,從而創(chuàng)造新的價值,是各行業(yè),尤其是電信行業(yè)的戰(zhàn)略方向之一。
電信運營商有望成為大數(shù)據(jù)領(lǐng)航者
大數(shù)據(jù)給我們的第一個感覺就是大,那么大數(shù)據(jù)到底有多大呢?一組名為“互聯(lián)網(wǎng)上的一天”的數(shù)據(jù)可以給我們一些參考。
一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封(相當(dāng)于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的博客帖達200萬個(相當(dāng)于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數(shù)量37.1萬……并且這些數(shù)字還在不斷上漲。
截至2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB (1024EB=1ZB)級別。國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM 的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍。
那么大數(shù)據(jù)只意味著大么?不,它更意味著,水面下的冰山即將露出水面。目前數(shù)據(jù)中蘊藏的價值金山已受到廣泛關(guān)注。2012年3月美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,將發(fā)展大數(shù)據(jù)上升為國家意志,對未來的科技與經(jīng)濟發(fā)展必將帶來深遠(yuǎn)影響。
那么究竟何為大數(shù)據(jù)呢?廣義上講,大數(shù)據(jù)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的海量數(shù)據(jù),它的數(shù)據(jù)規(guī)模和傳輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫系統(tǒng)。確切的講,大數(shù)據(jù)具備四大特征,即數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多樣(Variety)、 實時性強(Velocity)以及其蘊藏的商業(yè)價值大(Value)。
既然大數(shù)據(jù)有著如此大的價值誘惑,那么他能夠使得眾多“英雄”競折腰也不足為奇了。目前開展大數(shù)據(jù)價值挖掘技術(shù)的“英雄”包括電信運營商、互聯(lián)網(wǎng)廠商、金融企業(yè)等等。在眾多英雄中,因為互聯(lián)網(wǎng)廠商的大投入,使得他們在大數(shù)據(jù)領(lǐng)域已經(jīng)占據(jù)了較為領(lǐng)先的位置。但是,運營商因為擁有電信網(wǎng)絡(luò)中最全和最完整的數(shù)據(jù),而一躍成為開展大數(shù)據(jù)跨行業(yè)應(yīng)用最有力的競爭者。今后,隨著運營商的持續(xù)大力投入,他必將成為這個領(lǐng)域的領(lǐng)航者。
運營商網(wǎng)絡(luò)中的數(shù)據(jù)大致有如下一些類型:各類終端的型號數(shù)據(jù)、用戶位置數(shù)據(jù)、互聯(lián)網(wǎng)業(yè)務(wù)數(shù)據(jù)、用戶基本屬性數(shù)據(jù)和用戶消費數(shù)據(jù)。
中興通訊認(rèn)為,大數(shù)據(jù)將成為各行業(yè),尤其是電信行業(yè)的戰(zhàn)略發(fā)展方向。
對電信行業(yè),當(dāng)前同質(zhì)化競爭嚴(yán)重,有強烈愿望尋找經(jīng)營藍(lán)海。由于網(wǎng)絡(luò)管道化促使企業(yè)升級和轉(zhuǎn)型其盈利模式,通過本身擁有的海量核心資源——網(wǎng)絡(luò)數(shù)據(jù),進行分析利用,從而提高運營水平、找到創(chuàng)新點,是運營商的出路之一。
對政企行業(yè)而言,隨著日益社會化的信息交互,企業(yè)用戶有更多的選擇余地,留住用戶變得更困難。企業(yè)需要通過經(jīng)營數(shù)據(jù)深入研究消費群體,持續(xù)改善產(chǎn)品和服務(wù)體驗,才能生存發(fā)展。而信息化水平的提高,也使得產(chǎn)品、服務(wù)更快地被競爭對手模仿學(xué)習(xí)?傮w上,信息化推動了市場競爭,企業(yè)必須通過有效利用數(shù)據(jù)的潛在價值,才能生存和持續(xù)發(fā)展。
作為資深的電信領(lǐng)域方案和產(chǎn)品提供商,中興通訊認(rèn)為,電信行業(yè)發(fā)展大數(shù)據(jù)的立足點在于最有價值的位置、語音、網(wǎng)絡(luò)流量、視頻大數(shù)據(jù)的處理、分析和挖掘,在四個層次上支撐企業(yè)更高水平的運營和創(chuàng)新。一是大數(shù)據(jù)的收集預(yù)處理(ETL、云存儲);二是數(shù)據(jù)信息化(統(tǒng)計、檢索、查詢);三是深度分析挖掘(用戶分群、行為分析);四是預(yù)測(產(chǎn)品、資費、用戶的趨勢)。
在政企領(lǐng)域,基于運營數(shù)據(jù)(大企業(yè)呼叫中心數(shù)據(jù)、零售業(yè)店鋪信息、交通路況信息、政府部門數(shù)據(jù)等)自身的收集處理、分析挖掘,并可以結(jié)合電信行業(yè)數(shù)據(jù)(手機用戶位置等),能夠通過對大數(shù)據(jù)的分析利用,直接支撐和推動政企運營水平的提高。
創(chuàng)新技術(shù)是大數(shù)據(jù)發(fā)展的基石
要想實現(xiàn)對大數(shù)據(jù)的價值挖掘,大數(shù)據(jù)技術(shù)無疑是基石及助推器。而在大數(shù)據(jù)技術(shù)發(fā)展的整個過程中,分布式計算的精髓被體現(xiàn)得淋漓盡致,其中Apache的Hadoop分布式開源架構(gòu)是大數(shù)據(jù)的助推器,為包括IBM、阿里巴巴及中興通訊在內(nèi)的眾多大數(shù)據(jù)公司所采用.
大數(shù)據(jù)挖掘的邏輯流程如圖所示。在不同的應(yīng)用過程和領(lǐng)域依托于不同的技術(shù)。
中興通訊大數(shù)據(jù)價值挖掘技術(shù)邏輯圖
中興通訊的數(shù)據(jù)挖掘技術(shù)可以分為三個階段、八個環(huán)節(jié)。其中從數(shù)據(jù)采集和存儲以及檢索匯聚是數(shù)據(jù)的預(yù)處理階段;數(shù)據(jù)處理、分析、挖掘和模型預(yù)測為數(shù)據(jù)挖掘階段;最后為結(jié)果輸出階段。
在數(shù)據(jù)預(yù)處理階段,中興通訊使用ETL工具,負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)挖掘階段為整個過程最為關(guān)鍵的階段,中興通訊采用CEP(復(fù)雜數(shù)據(jù)處理)和MapReduce等技術(shù),其中CEP將數(shù)據(jù)流抽象為事件序列,使上層應(yīng)用能夠?qū)崟r掌握運行狀況并采取行動。
最后是輸出呈現(xiàn)階段,目的是是更加智能、簡便及順暢的呈現(xiàn)數(shù)據(jù)挖掘的各種成果。中興通訊采用的技術(shù)有云計算、標(biāo)簽云、關(guān)系圖等。
整個過程中,大數(shù)據(jù)涉及到的技術(shù)繁多,同時也日新月異,技術(shù)總在不斷地演進。中興通訊作為通信行業(yè)中的標(biāo)兵,一直致力于大數(shù)據(jù)技術(shù)的研發(fā)工作,為大數(shù)據(jù)整體技術(shù)的演進起到了推動作用。在大數(shù)據(jù)的的演進中,中興通訊認(rèn)為以下趨勢會日趨明顯:
在數(shù)據(jù)存儲和管理上,高效存儲成為存儲技術(shù)主要的研究方向,關(guān)系數(shù)據(jù)庫和分布式數(shù)據(jù)管理方式逐步走向融合。
大規(guī)模數(shù)據(jù)處理分析需求的多樣性,導(dǎo)致離線批處理、實時流處理、分布式內(nèi)存計算、圖計算框架等多種計算框架并存。需要靈活采用混搭架構(gòu)滿足應(yīng)用需求。同時,多模式計算框架走向融合。
對自然語言理解的需求推動語義WEB技術(shù)發(fā)展,跨媒體的數(shù)據(jù)融合業(yè)務(wù)推動多維多模態(tài)信息融合與處理,大數(shù)據(jù)可視化成為快速理解大數(shù)據(jù)的 途徑。
電信智能數(shù)據(jù)應(yīng)用沿“MSS至BSS至OSS至電信網(wǎng)元”路徑發(fā)展深入,應(yīng)用場景大大豐富,同時不同領(lǐng)域的數(shù)據(jù)存在交叉融合。
大數(shù)據(jù)平臺技術(shù)更能直觀地體現(xiàn)大數(shù)據(jù)挖掘技術(shù)的組成。大數(shù)據(jù)平臺是介于數(shù)據(jù)整合和應(yīng)用之間的,具備數(shù)據(jù)預(yù)處理、處理、分析挖掘以及對外接口共享等功能。其中數(shù)據(jù)處理包括了實時流處理 (CEP技術(shù))和離線批處理(包含了Hadoop的文件系統(tǒng)HDFS和數(shù)據(jù)處理MapReduce等關(guān)鍵技術(shù))。在數(shù)據(jù)挖掘中,中興通訊針對各種應(yīng)用開發(fā)出了不同的組件,包括人流分析組件、用戶行為分析組件等。這些組件的開發(fā),充分體現(xiàn)了中興通訊致力于大數(shù)據(jù)的實際應(yīng)用開發(fā)的智慧和能力。
Hadoop MapReduce是離線批處理中的主流技術(shù),Hadoop發(fā)展過程中一個重大的變化就是引入了YARN,將MapRedcue中的資源管理調(diào)度剝離出來,為多計算架構(gòu)融合打下基礎(chǔ)。Hadoop的開源促進了大計算技術(shù)快速的應(yīng)用,但是開源系統(tǒng)的不完善也是實際使用過程中需要解決的問題。中興通訊在高可用性、性能優(yōu)化、管理優(yōu)化等方面做了大量的工作。
實時流處理CEP采用事件觸發(fā)機制,對于輸入的事件在內(nèi)存中及時處理。CEP支持規(guī)則以滿足靈活的事件處理要求。CEP采用分布式內(nèi)存數(shù)據(jù)庫、消息總線等機制來實現(xiàn)快速實時響應(yīng)。
大數(shù)據(jù)應(yīng)用正逐漸豐富成熟
大數(shù)據(jù)業(yè)務(wù)應(yīng)用呈個性化、社交化、智能化的趨勢,人機交互的需求推動智能問答發(fā)展和應(yīng)用。
大數(shù)據(jù)的應(yīng)用已廣泛深入我們生活的方方面面,涵蓋通信、醫(yī)療、能源、經(jīng)濟、交通、零售業(yè)等各種行業(yè):
Seton Healthcare是采用IBM 沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的 客戶,該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。
維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級計算機,然后對氣象數(shù)據(jù)進行分析,找出安裝風(fēng)力渦輪機和整個風(fēng)電場 的地點。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時便可完成。
NTT docomo把手機位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務(wù)。
零售企業(yè)也監(jiān)控客戶的店內(nèi)走動情況以及與商品的互動。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調(diào)整售價上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。
而對于我們特別關(guān)注的通信市場來說,運營商在大數(shù)據(jù)上的應(yīng)用主要體現(xiàn)在如下四個層面。
在市場層面,運營商可以利用大數(shù)據(jù)為自身的產(chǎn)品服務(wù),通過大數(shù)據(jù)分析用戶行為,改進產(chǎn)品設(shè)計,并通過用戶偏好分析,及時、準(zhǔn)確地進行業(yè)務(wù)推薦,強化客戶關(guān)懷,這樣就可以不斷改善用戶體驗,增加用戶的信息消費以及對運營商的黏度;
在網(wǎng)絡(luò)層面,可以通過大數(shù)據(jù)分析網(wǎng)絡(luò)的流量、流向變化趨勢,及時調(diào)整資源配置,同時還可以分析網(wǎng)絡(luò)日志,進行全網(wǎng)絡(luò)優(yōu)化,不斷提升網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)利用率;
在企業(yè)經(jīng)營層面,可以通過業(yè)務(wù)、資源、財務(wù)等各類數(shù)據(jù)的綜合分析,快速準(zhǔn)確地確定公司的經(jīng)營管理和市場競爭策略;
在業(yè)務(wù)創(chuàng)新層面,可以在確保用戶隱私不被侵犯的前提下,對數(shù)據(jù)進行深度加工,對外提供信息服務(wù),為企業(yè)創(chuàng)造新的價值。這樣,大數(shù)據(jù)將助運營商實現(xiàn)從網(wǎng)絡(luò)服務(wù)提供商,向信息服務(wù)提供商的轉(zhuǎn)變。
總之,運營商正在尋求對自有數(shù)據(jù)最大化的價值變現(xiàn),提高運維效率,降低運維成本,提升用戶關(guān)懷質(zhì)量;提升運營能力,開拓業(yè)務(wù)市場,加速ICT融合。
作為大數(shù)據(jù)技術(shù)的引領(lǐng)者,中興通訊主要基于運營商數(shù)據(jù)和行業(yè)數(shù)據(jù),在大數(shù)據(jù)的應(yīng)用開發(fā)上橫跨了電信、金融、交通、互聯(lián)網(wǎng)等行業(yè),開發(fā)出了一整套業(yè)界領(lǐng)先的大數(shù)據(jù)應(yīng)用。
以商鋪選址為例,融合用戶位置數(shù)據(jù)和用戶畫像的商鋪選址,克服了傳統(tǒng)人工選址的局限,幫助商業(yè)用戶以低成本快速、精準(zhǔn)選址,實現(xiàn)運營商增值業(yè)務(wù)和商業(yè)客戶的深度捆綁,提升價值客戶黏性。
又如將大數(shù)據(jù)應(yīng)用于客流分析,實時采集用戶位置信令數(shù)據(jù),動態(tài)呈現(xiàn)區(qū)域客流密度和人群流動軌跡、發(fā)現(xiàn)和預(yù)測人群活動規(guī)律,滿足市政部門道路交通規(guī)劃和應(yīng)急安全管控等需求。
還有智能運營應(yīng)用,基于大數(shù)據(jù)的新型網(wǎng)規(guī)網(wǎng)優(yōu)解決方案以精細(xì)化運營為導(dǎo)向,以客戶體驗提升為目標(biāo),以網(wǎng)規(guī)網(wǎng)優(yōu)性能指標(biāo)量化、科學(xué)評估預(yù)測和精準(zhǔn)資源投放為抓手,通過引入新型的數(shù)據(jù)源和采用基于大數(shù)據(jù)的海量數(shù)據(jù)處理方式,為網(wǎng)絡(luò)建設(shè)規(guī)劃和優(yōu)化提供有力的支撐和保障。
(大數(shù)據(jù)百科)大數(shù)據(jù)與云計算
大數(shù)據(jù)被業(yè)界重視要晚于云計算,本來獨立發(fā)展的兩大方向能否很好地互補,結(jié)成一個美妙的組合呢?答案是肯定的。在互聯(lián)網(wǎng)時代,大數(shù)據(jù)與云計算的結(jié)合可以實現(xiàn)對海量數(shù)據(jù)快速、廉價的存 儲與分析,從而推動大數(shù)據(jù)在各行各業(yè)的發(fā)展。
兩者合作的關(guān)系可以體現(xiàn)在以下幾個方面:
云計算作為大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)成為云計算的一個殺手級應(yīng)用;
大數(shù)據(jù)的許多重要技術(shù)根植于云計算,云計算關(guān)鍵技術(shù)中的海量數(shù)據(jù)存儲技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce編程模型,都是大數(shù)據(jù)技術(shù)的基礎(chǔ);
云計算驅(qū)動大數(shù)據(jù)的成長,而另一方面,由于數(shù)據(jù)越來越多、越來越復(fù)雜、越來越實時,這就更加需要云計算去處理;
大數(shù)據(jù)著眼于“數(shù)據(jù)”,關(guān)注實際業(yè)務(wù),提供數(shù)據(jù)采集分析挖掘,看重的是信息積淀,即數(shù)據(jù)存儲能力;
云計算著眼于“計算”,關(guān)注IT解決方案,提供IT基礎(chǔ)架構(gòu),看重的是計算能力,即數(shù)據(jù)處理能力。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://m.sanmuled.cn/