摘要:數(shù)據(jù)挖掘的流程與方法任務(wù)關(guān)聯(lián)分析聚類分析分類分析異常分析特異組群分析演變分析方法統(tǒng)計(jì)在線處理分析情報(bào)檢索機(jī)器學(xué)習(xí)分類實(shí)際應(yīng)用應(yīng)用分類趨勢預(yù)測推薦關(guān)聯(lián)類商品回歸分析實(shí)際應(yīng)用預(yù)測銷售趨勢聚類實(shí)際應(yīng)用分類關(guān)聯(lián)規(guī)則包括兩個階段從海量數(shù)據(jù)中找到高頻項(xiàng)
數(shù)據(jù)挖掘的流程與方法 1.任務(wù):
關(guān)聯(lián)分析
聚類分析
分類分析
異常分析
特異組群分析
演變分析
2.方法:統(tǒng)計(jì)
在線處理分析
情報(bào)檢索
機(jī)器學(xué)習(xí)
分類
實(shí)際應(yīng)用: 應(yīng)用分類/趨勢預(yù)測/推薦關(guān)聯(lián)類商品
回歸分析
實(shí)際應(yīng)用: 預(yù)測銷售趨勢
聚類
實(shí)際應(yīng)用: 分類
關(guān)聯(lián)規(guī)則
包括兩個階段: 從海量數(shù)據(jù)中找到高頻項(xiàng)目組/產(chǎn)生關(guān)聯(lián)規(guī)則
實(shí)際應(yīng)用: 預(yù)測客戶需求
Web數(shù)據(jù)挖掘
常用算法: PageRank算法/HITS算法/LOGSOM算法
問題: 用戶分類/用戶頁面停留時間/內(nèi)容時效性/頁面鏈入鏈出/
專家系統(tǒng)
模式識別
神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)模型的種類:
用于分類預(yù)測和模式識別的前饋式: 函數(shù)型網(wǎng)絡(luò)/感知機(jī)
用于聯(lián)想記憶和優(yōu)化算法的反饋式: 離散模型/連續(xù)模型
用于聚類的自組織映射: ART模型
3.步驟:one.業(yè)務(wù)理解
階段目標(biāo)
明確商業(yè)問題和數(shù)據(jù)挖掘目標(biāo)
制定項(xiàng)目計(jì)劃
工作任務(wù)
業(yè)務(wù)需求調(diào)研,問題背景
項(xiàng)目資源評估,確定資源需求
明確業(yè)務(wù)目標(biāo)和成功的標(biāo)準(zhǔn)
挖掘目標(biāo)確定,可行性,明確數(shù)據(jù)挖掘目標(biāo)和成功標(biāo)準(zhǔn)
項(xiàng)目計(jì)劃制定,指導(dǎo)項(xiàng)目實(shí)施
實(shí)施要點(diǎn)
充分的需求調(diào)研和溝通交流
合理的資源、約束條件假設(shè)
合適的挖掘結(jié)果應(yīng)用場景設(shè)定
two.數(shù)據(jù)理解
階段目標(biāo)
確定建模所需用的數(shù)據(jù)
探索建模需要的目標(biāo)變量
工作任務(wù)
數(shù)據(jù)字典編制,梳理內(nèi)外部數(shù)據(jù)類型
明確數(shù)據(jù)業(yè)務(wù)指標(biāo)含義
質(zhì)量校驗(yàn),確保數(shù)據(jù)全面性和可用性
目標(biāo)變量探索,為模型構(gòu)建做準(zhǔn)備
數(shù)據(jù)的數(shù)據(jù)量(維度和樣本大小)
數(shù)據(jù)的質(zhì)量(缺失值、異常值、不一致性等)
數(shù)據(jù)的分布規(guī)律(各種統(tǒng)計(jì)指標(biāo))
實(shí)施要點(diǎn)
必備的內(nèi)外部數(shù)據(jù)可獲取和可干預(yù)
數(shù)據(jù)一致性、完整性、準(zhǔn)確性
目標(biāo)因子初步分析確定
three.數(shù)據(jù)準(zhǔn)備
階段目標(biāo)
建立數(shù)據(jù)集市或?qū)挶?/p>
工作任務(wù)
數(shù)據(jù)集市或?qū)挶碓O(shè)計(jì)
將多個表信息進(jìn)行整合:表之間的聯(lián)接/明細(xì)數(shù)據(jù)的匯總加工
處理數(shù)據(jù)質(zhì)量問題: 缺失值/異常值
數(shù)據(jù)清洗、加載、轉(zhuǎn)換
數(shù)據(jù)的字段進(jìn)行變換: 規(guī)范化/標(biāo)準(zhǔn)化
或都將數(shù)據(jù)進(jìn)行映射變換,如Log變化
數(shù)值型按區(qū)間轉(zhuǎn)換成名詞型字段
特征工程
從業(yè)務(wù)角度加工新的計(jì)算指標(biāo)
進(jìn)行自動特征構(gòu)建、特征選擇、特征降維
數(shù)據(jù)質(zhì)量校驗(yàn)
數(shù)據(jù)標(biāo)準(zhǔn)化
實(shí)施要點(diǎn)
高效的數(shù)據(jù)保障項(xiàng)目進(jìn)度和質(zhì)量
four.建立模型
階段目標(biāo)
選擇合適的技術(shù)建模
實(shí)現(xiàn)數(shù)據(jù)挖掘目標(biāo)
工作任務(wù)
技術(shù)選型,選擇合適的模型算法
樣本選取,確定訓(xùn)練樣本、測試樣本和驗(yàn)證樣本
模型建立,篩選變量、模型訓(xùn)練、模型測試
模型評估,評估模型是否滿足數(shù)據(jù)挖掘目標(biāo)
實(shí)施要點(diǎn)
合適的技術(shù)幫助實(shí)現(xiàn)挖掘目標(biāo)
樣本數(shù)據(jù)真實(shí)反映業(yè)務(wù)需求
全面評估模型數(shù)據(jù)挖掘效果
five.檢驗(yàn)?zāi)P?/strong>
階段目標(biāo)
進(jìn)行模型的業(yè)務(wù)應(yīng)用測試(A/B測試)
判斷是否實(shí)現(xiàn)商業(yè)目標(biāo)
工作任務(wù)
模型試用,確定業(yè)務(wù)場景,進(jìn)行模型應(yīng)用測試,收集反饋效果
效果評價(jià),對測試效果進(jìn)行評估分析,判斷模型是否滿足商業(yè)目標(biāo)
實(shí)施要點(diǎn)
合適的業(yè)務(wù)場景試用方案
全面科學(xué)的效果評價(jià)
six.結(jié)果部署
階段目標(biāo)
把數(shù)據(jù)挖掘成果部署到商業(yè)環(huán)境,應(yīng)用于生產(chǎn)
工作任務(wù)
規(guī)劃部署,制定部署計(jì)劃和方案
監(jiān)控與維護(hù),實(shí)時跟蹤,驗(yàn)證商業(yè)目標(biāo)達(dá)成情況
總結(jié)報(bào)告,經(jīng)驗(yàn)積累
實(shí)施要點(diǎn)
科學(xué)規(guī)劃,保障無縫部署
即時監(jiān)控及維護(hù)響應(yīng),保障運(yùn)營
全面的總結(jié)分析,積累經(jīng)驗(yàn)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45186.html
摘要:這是一個基于做的一個電商網(wǎng)站前端項(xiàng)目附帶前后端分離實(shí)現(xiàn)版本在分支,歡迎或項(xiàng)目地址項(xiàng)目預(yù)覽地址說明分支是單純的前端項(xiàng)目,分支為與后端接口結(jié)合的前端項(xiàng)目,附后端項(xiàng)目地址本項(xiàng)目僅供學(xué)習(xí)參考分支為純前端項(xiàng)目,所以登陸密碼是寫死的,體驗(yàn)賬號密 MALL-VUE 這是一個基于VUE + VUEX + iView做的一個電商網(wǎng)站前端項(xiàng)目, 附帶前后端分離實(shí)現(xiàn)版本(在forMallServer分支),...
摘要:這是一個基于做的一個電商網(wǎng)站前端項(xiàng)目附帶前后端分離實(shí)現(xiàn)版本在分支,歡迎或項(xiàng)目地址項(xiàng)目預(yù)覽地址說明分支是單純的前端項(xiàng)目,分支為與后端接口結(jié)合的前端項(xiàng)目,附后端項(xiàng)目地址本項(xiàng)目僅供學(xué)習(xí)參考分支為純前端項(xiàng)目,所以登陸密碼是寫死的,體驗(yàn)賬號密 MALL-VUE 這是一個基于VUE + VUEX + iView做的一個電商網(wǎng)站前端項(xiàng)目, 附帶前后端分離實(shí)現(xiàn)版本(在forMallServer分支),...
摘要:程序員不僅應(yīng)致力于讓程序員失業(yè),也應(yīng)致力于讓所有人失業(yè)。源代碼公開是一個熱議話題,當(dāng)問到對源代碼公開的個人觀點(diǎn)時,說到雖然對程序員是一件好事,可以讓程序員研究源代碼,但我并不認(rèn)為所有軟件的源代碼必須公開,源代碼公開涉及到知識產(chǎn)權(quán)等各種問題。 為打破外界對程序員簡單平面的偏見,一系列程序員訪談?wù)谶M(jìn)行中。 第一個接受訪談的程序員 Gemini,在 SegmentFault 主要負(fù)責(zé) An...
閱讀 1414·2023-04-26 03:04
閱讀 2372·2019-08-30 15:44
閱讀 3740·2019-08-30 14:15
閱讀 3546·2019-08-27 10:56
閱讀 2766·2019-08-26 13:53
閱讀 2629·2019-08-26 13:26
閱讀 3091·2019-08-26 12:11
閱讀 3620·2019-08-23 18:21