隨著電子商務(wù)的不斷發(fā)展,越來(lái)越多的企業(yè)和個(gè)人通過(guò)網(wǎng)絡(luò)進(jìn)行交易,享受到了電子商務(wù)提供的便利。同時(shí),大量的電子商務(wù)活動(dòng)導(dǎo)致了海量數(shù)據(jù)的累積,而這些數(shù)據(jù)本身的復(fù)雜程度也使許多有用的知識(shí)被埋沒,如何把海量數(shù)據(jù)轉(zhuǎn)換成能被識(shí)別且能直接使用的有用知識(shí),對(duì)電子商務(wù)的發(fā)展至關(guān)重要。
一、電子商務(wù)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是按企業(yè)的既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,以揭示隱藏的、未知的規(guī)律性并將其模式化,從而支持商業(yè)決策活動(dòng),具有數(shù)據(jù)量巨大、動(dòng)態(tài)性、適用性、系統(tǒng)性的特點(diǎn)。
二、數(shù)據(jù)挖掘在電子商務(wù)中的作用
數(shù)據(jù)挖掘技術(shù)之所以可以服務(wù)于電子商務(wù),是因?yàn)樗軌蛲诰虺龌顒?dòng)過(guò)程中的潛在信息以指導(dǎo)電子商務(wù)營(yíng)銷活動(dòng)。數(shù)據(jù)挖掘在電子商務(wù)中的作用主要體現(xiàn)在挖掘客戶活動(dòng)規(guī)律,有針對(duì)性地在電子商務(wù)平臺(tái)下提供“個(gè)性化”的服務(wù);可以瀏覽電子商務(wù)網(wǎng)站的訪問(wèn)者,從中挖掘潛在的客戶;優(yōu)化電子商務(wù)網(wǎng)站信息中的信息導(dǎo)航,方便客戶瀏覽;通過(guò)對(duì)電子商務(wù)訪問(wèn)者的活動(dòng)信息的控制,可以更加深入地了解客戶需求。
三、電子商務(wù)大數(shù)據(jù)挖掘的流程
電子商務(wù)是一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可使用的信息,并使用這些信息做出決策和豐富知識(shí)。
1、數(shù)據(jù)生產(chǎn)。企業(yè)在日常經(jīng)營(yíng)管理中,企業(yè)內(nèi)部各個(gè)業(yè)務(wù)信息系統(tǒng)會(huì)產(chǎn)生大量結(jié)構(gòu)化數(shù)據(jù)。同時(shí),在企業(yè)的視頻監(jiān)控、產(chǎn)品內(nèi)置傳感器、門戶網(wǎng)站以及各種APP中會(huì)產(chǎn)生各種各樣的非結(jié)構(gòu)化數(shù)據(jù)。此外,行業(yè)網(wǎng)站、電子商務(wù)交易平臺(tái)、電子采購(gòu)平臺(tái)等構(gòu)成了豐富的企業(yè)外部數(shù)據(jù)。這些內(nèi)容數(shù)據(jù)和外部數(shù)據(jù)共同創(chuàng)造了企業(yè)大數(shù)據(jù)應(yīng)用的數(shù)據(jù)源。
2、數(shù)據(jù)采集。從數(shù)據(jù)源中抽取和集成數(shù)據(jù),從中提取出關(guān)系和實(shí)體,并將這些結(jié)構(gòu)復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一結(jié)構(gòu)便于處理的數(shù)據(jù)。在抽取數(shù)據(jù)時(shí)要對(duì)數(shù)據(jù)進(jìn)行清洗,以保證數(shù)據(jù)的質(zhì)量和可信度。然后將這些整理好的數(shù)據(jù)進(jìn)行存儲(chǔ)與集成,將這些數(shù)據(jù)分門別類放置,以提高數(shù)據(jù)提取的速度。
3、數(shù)據(jù)準(zhǔn)備。一方面搜索所有與業(yè)務(wù)對(duì)象相關(guān)的數(shù)據(jù)信息,并從中選擇做出適用于電子商務(wù)數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù),以減少數(shù)據(jù)規(guī)模。解決數(shù)據(jù)中的缺失值、冗余、數(shù)據(jù)定義不一致,過(guò)時(shí)的數(shù)據(jù)等問(wèn)題,還包括對(duì)時(shí)序數(shù)據(jù)的整理和歸并。另一方面將非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)處理成機(jī)器語(yǔ)言或索引,同時(shí)將結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,提煉有意義數(shù)據(jù),剔除無(wú)效數(shù)據(jù)以提高分析效率。
4、數(shù)據(jù)挖掘。在對(duì)原始數(shù)據(jù)進(jìn)行有效分析之前,必須對(duì)數(shù)據(jù)進(jìn)行清洗等預(yù)處理工作,以便減少數(shù)據(jù)噪音。對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)卣{(diào)整以適應(yīng)大數(shù)據(jù)價(jià)值稀疏性、應(yīng)用實(shí)時(shí)性等特點(diǎn),并設(shè)計(jì)合理的指標(biāo)來(lái)判斷數(shù)據(jù)分析結(jié)果的好壞。
5、數(shù)據(jù)利用。通過(guò)引入可視化技術(shù)和讓用戶一定程度上了解和參與分析過(guò)程,幫助用戶理解數(shù)據(jù)分析結(jié)果。數(shù)據(jù)挖掘的結(jié)果,不僅僅需要呈現(xiàn)給數(shù)據(jù)分析專家,更要解釋給非專業(yè)人士才能發(fā)揮出它的價(jià)值,高管、股東、政府甚至是社會(huì)公眾都是大數(shù)據(jù)的使用者。 |