技術(shù)培訓(xùn) | 大數(shù)據(jù)分析處理與用戶畫像實(shí)踐

XanaHopper 發(fā)布于2019-06-28 10:52 / 3104人閱讀

摘要：孔淼大數(shù)據(jù)分析處理與用戶畫像實(shí)踐直播內(nèi)容如下今天咱們就來閑聊下我過去接觸過的數(shù)據(jù)分析領(lǐng)域，因?yàn)槲沂沁B續(xù)創(chuàng)業(yè)者，所以我更多的注意力還是聚焦在解決問題和業(yè)務(wù)場景上。在對微博數(shù)據(jù)進(jìn)行上面提到的計(jì)算分析之前，我們其實(shí)還做了很多數(shù)據(jù)處理的工作。

孔淼：大數(shù)據(jù)分析處理與用戶畫像實(shí)踐

直播內(nèi)容如下：

今天咱們就來閑聊下我過去接觸過的數(shù)據(jù)分析領(lǐng)域，因?yàn)槲沂沁B續(xù)創(chuàng)業(yè)者，所以我更多的注意力還是聚焦在解決問題和業(yè)務(wù)場景上。如果把我在數(shù)據(jù)分析的經(jīng)驗(yàn)進(jìn)行劃分的話，剛好就是我所經(jīng)歷的兩次創(chuàng)業(yè)階段，第一階段是“第三方數(shù)據(jù)分析”，第二階段是“第一方數(shù)據(jù)分析”。所以今天咱們就從這兩點(diǎn)來談?wù)剶?shù)據(jù)分析。

第三方數(shù)據(jù)分析

先聊聊“第三方數(shù)據(jù)分析”，這個(gè)主要結(jié)緣于我給開復(fù)做微博數(shù)據(jù)挖掘。

起因：給開復(fù)做“微博推薦”

微博剛剛火起來的時(shí)候，大家發(fā)現(xiàn)開復(fù)曾經(jīng)一段時(shí)間內(nèi)都是微博的 Top1，很多人會在想，開復(fù)每天都在刷微博嗎？或者開復(fù)的微博是不是有個(gè)龐大的運(yùn)營團(tuán)隊(duì)？

我可以給你答案，其實(shí)基本上都是開復(fù)自己處理的。但是開復(fù)每天都很忙，沒有時(shí)間看那么多微博，所以我們玩了個(gè) “trick” ，通過程序自動化微博推薦，“揪出”可能會成為爆點(diǎn)或者有意義的微博。

開復(fù)提了個(gè)算法，就是抓取自己關(guān)注的人，以及關(guān)注人的關(guān)注作為種子，首先將這些人的微博轉(zhuǎn)發(fā)歷史建立一個(gè)“歷史檔案”，理論上每個(gè)人都可以計(jì)算出一個(gè)時(shí)間與轉(zhuǎn)發(fā)量的相關(guān)函數(shù)曲線，然后通過監(jiān)控這些人的微博，如果在某個(gè)時(shí)刻，微博的發(fā)布超出歷史檔案一定倍數(shù)，我們就會認(rèn)為這是可被推薦的微博，所以開復(fù)每天看的都是經(jīng)過篩選后的微博。

在這個(gè)過程中，趕上了微博增長的爆發(fā)階段，所以在計(jì)算歷史檔案的效率上，我們用了連續(xù)信號的時(shí)序抽樣相關(guān)算法，減少計(jì)算復(fù)雜度，并且也會去調(diào)整倍數(shù)的參數(shù)，同時(shí)我們每天也會在數(shù)據(jù)庫里手動添加一些新的有價(jià)值的種子用戶。

轉(zhuǎn)承：微博數(shù)據(jù)挖掘到第三方數(shù)據(jù)挖掘

剛剛講了一些故事，其實(shí)跟著開復(fù)還做了很多關(guān)于微博數(shù)據(jù)的挖掘，后來其演變成了一款產(chǎn)品叫“脈搏網(wǎng)”，包括微博轉(zhuǎn)發(fā)的可視化監(jiān)控，找出 KOL （意見領(lǐng)袖）分析爆點(diǎn)原因等等?！懊}搏網(wǎng)”雖然表面是微博工具，但是其本質(zhì)是一群精英爬蟲。談到今天的話題，第三方數(shù)據(jù)，就不得不說爬蟲。

其實(shí)我在做第三方數(shù)據(jù)分析的時(shí)候，所有的用戶數(shù)據(jù)都來自于網(wǎng)絡(luò)公開的數(shù)據(jù)抓取，比如微博、豆瓣、人人、知乎等等，所有的標(biāo)簽數(shù)據(jù)來自于垂直網(wǎng)站的抓取，例如汽車品類就是汽車之家，旅游就是旅游網(wǎng)站等等。

所謂第三方數(shù)據(jù)分析，其實(shí)相對于數(shù)據(jù)使用方的自有數(shù)據(jù)（第一方數(shù)據(jù)）而言的。對于數(shù)據(jù)提供方的數(shù)據(jù)來源也大概分為幾種：

類似“脈搏網(wǎng)”這種的爬蟲專業(yè)戶

類似 Admaster 這樣的廣告監(jiān)控， Cookie 跟蹤用戶頁面訪問記錄等等

Talkingdata 這種數(shù)據(jù)分析平臺，用戶的應(yīng)用列表數(shù)據(jù)等等

所以包括我們上家創(chuàng)業(yè)公司（37degree）、 Admaster 和 Talkingdata 都做了DMP（Data management platform），雖然大家的數(shù)據(jù)源不一樣，但是都會基于各種數(shù)據(jù)進(jìn)行清洗，然后計(jì)算標(biāo)簽，比如網(wǎng)頁有不同類型的網(wǎng)站，應(yīng)用也有不同的分類，當(dāng)然實(shí)際的算法會比這個(gè)復(fù)雜多了。

來聊聊我做的第三方數(shù)據(jù)的一些經(jīng)驗(yàn)：

先說說數(shù)據(jù)抓取，也就是爬蟲。

這個(gè)爬蟲不是簡單的發(fā)個(gè)請求，解析一下 DOM 就可以了，實(shí)戰(zhàn)中主要從以下方面去解決：

找到合適的接口，包括移動端抓包、PC 網(wǎng)站、Wap 站、Ajax 異步請求

突破限制和驗(yàn)證，包括模擬請求，繞過驗(yàn)證碼，登錄驗(yàn)證，網(wǎng)絡(luò)代理

效率問題

先說說第一個(gè)問題：

爬蟲的第一要點(diǎn)一定是巧取。
很多人盲目的去爬取所有能爬到的網(wǎng)頁接口，這樣做是不對的。找到合適的接口是做爬蟲的第一步，這樣節(jié)省的時(shí)間可能是指數(shù)級的。舉個(gè)例子，假如要抓取微博用戶的 profile ，有以下幾種辦法：

網(wǎng)頁

客戶端， iOS 、 Android 、平板等等

wap 網(wǎng)站

同樣的業(yè)務(wù)，各個(gè)終端都有。我們所要作的就是在其中找邏輯最簡單的，并且限制最少的接口去做爬取。

對于PC網(wǎng)站，很多人之前都會被一些 Javascript 異步加載，也就是需要點(diǎn)擊交互才能觸發(fā)的接口卡住，所以喜歡用模擬瀏覽器的庫去處理，這種做法小打小鬧還可以，大規(guī)模處理就會遇到性能等各方面的問題。一般來講，用 Chrome 的調(diào)試工具，看 Network ，必要時(shí)要點(diǎn)下 Preserve Log ，防止日志在重定向時(shí)清掉。

對于移動端，可以用 Charles 或者 Fiddler2 設(shè)置終端代理，然后抓包網(wǎng)絡(luò)請求，這樣就可以看到很多請求數(shù)據(jù)了，然后找到自己需要的。這種做法我一般用的最多，因?yàn)橐苿佣说?API 幾乎都是結(jié)構(gòu)化的數(shù)據(jù)，不像網(wǎng)頁還需要解析。

然后說說第二個(gè)問題，突破限制：

模擬請求肯定是第一步，你要熟知 HTTP 協(xié)議，簡單的比如 UA、Referer，又比如 Cookie 在請求頭哪兒設(shè)置的，還有的就是一些常用的協(xié)議，比如 XAuth 協(xié)議、OAuth2.0 協(xié)議等，我們當(dāng)時(shí)研究爬蟲的同事在原理級需要融會貫通的。

繞過驗(yàn)證碼，用一些簡單的 OCR 的庫，比如早期的 12306 很簡單，復(fù)雜的就只能找漏洞了。

登錄驗(yàn)證，一般來講其實(shí)最主要的有兩個(gè)問題：

一個(gè)是需要連續(xù)請求，中間涉及到添加了一些 Cookie 或者參數(shù)傳遞都得完整跟蹤模擬；
第二個(gè)就是弄清楚加密的機(jī)制，比如早期新浪微博是二次 SHA1 加密還加 salt，后來是 RSA 加密。對于 PC 網(wǎng)頁弄清楚加密原理比較簡單，就是要學(xué)會閱讀 Javascript 的代碼。然后需要有足夠多的賬號用來偽造身份，有的時(shí)候也可以不用模擬登陸，用 OAuth 的一些授權(quán)來做，道理也類似，就是要模擬拿到 Access_token，比如說我看了 OAuth2.0 的 RFC 協(xié)議，然后找到了授權(quán)的一個(gè)隱藏漏洞。

網(wǎng)絡(luò)代理就得看實(shí)際情況了。有的請求是 HTTP ，有的請求是 HTTPS ，我們當(dāng)時(shí)是抓了大部分網(wǎng)絡(luò)公開的代理網(wǎng)站，然后結(jié)合不同的抓取域名，驗(yàn)證這些代理的有效性，保證隨時(shí)擁有大量可用的代理庫，包括 HTTP 和 HTTPS 的。

最后一個(gè)問題就是效率，爬蟲是一個(gè)很大的工程。舉個(gè)簡單的例子，我要抓取微博用戶的個(gè)人資料、關(guān)注關(guān)系、微博內(nèi)容，微博內(nèi)容和關(guān)注關(guān)系還需要分頁，如果是 3 億的微博賬號，平均一個(gè)人 5 個(gè)請求，就需要 15 億請求，一天的請求耗時(shí)是 86400 秒，所以可想而知抓一遍壓力還是很大的。

我們當(dāng)時(shí)的框架主要分為三種，都是自己寫的:

基于 Hadoop 的爬蟲

基于 Celery 的單網(wǎng)卡

基于 Celery 的多網(wǎng)卡分布式

分布式其實(shí)一個(gè)很重要的特性就是消息通信，爬蟲框架核心是頻繁的URL調(diào)度和解析的調(diào)度。如果是用分布式解析的方法來解析站點(diǎn)的話，那么爬下來的內(nèi)容會占用非常多的帶寬。在多網(wǎng)卡環(huán)境下，一般內(nèi)網(wǎng)千兆，外網(wǎng)百兆，通信走內(nèi)網(wǎng)，抓取走外網(wǎng)，這樣對帶寬影響不大。但是如果是單網(wǎng)卡環(huán)境時(shí)就不一樣了，所以單網(wǎng)卡時(shí)，基本上就會相應(yīng)減少解析調(diào)度，主要的信息通信依然是URL的調(diào)度，通過異步解析的方式來最大程度的利用好網(wǎng)絡(luò)資源。

爬蟲這塊想了解更多的話，可以看看我之前寫的兩篇爬蟲入門文章。
《爬蟲入門上篇》https://zhuanlan.zhihu.com/p/20334680?refer=zhugeio
《爬蟲入門下篇》https://zhuanlan.zhihu.com/p/20336750?refer=zhugeio

算法分析

接下來說說算法分析這塊。抓取數(shù)據(jù)只是一部分，其實(shí)更大的挑戰(zhàn)還是算法分析，諸如用戶畫像、標(biāo)簽計(jì)算，以及機(jī)器學(xué)習(xí)應(yīng)用里面的聚類分類等等。

影響力算法
我們對微博用戶影響力的計(jì)算用的就是 Pagerank 相關(guān)的算法，因?yàn)橛脩糁暗年P(guān)注關(guān)系很類似網(wǎng)頁之間的鏈接關(guān)系，所以我們當(dāng)時(shí)抓取了所有用戶的關(guān)注關(guān)系，用 Pagerank 的算法來計(jì)算這些人的影響力排名。

消費(fèi)能力計(jì)算
微博用戶有發(fā)布微博的設(shè)備列表，有加 V 認(rèn)證的類型，并且還有關(guān)注關(guān)系，所以我們結(jié)合這些維度計(jì)算了消費(fèi)能力。

標(biāo)簽計(jì)算
預(yù)先標(biāo)注一些標(biāo)簽庫，然后將用戶的微博進(jìn)行分詞詞頻統(tǒng)計(jì)，然后找到對應(yīng)標(biāo)簽統(tǒng)計(jì)權(quán)重，標(biāo)簽庫主要來源于垂直網(wǎng)站的抓取訓(xùn)練。

其實(shí)計(jì)算影響力和消費(fèi)能力是很大的挑戰(zhàn)，雖然這些事情都是通過算法去實(shí)現(xiàn)，但效率上還是有很大的挑戰(zhàn)，比如 1 秒計(jì)算 100 個(gè)人，一天也只能計(jì)算 800 多萬個(gè)用戶，算完所有用戶也要一個(gè)月，所以我們做了很多算法和性能的優(yōu)化，甚至犧牲一定準(zhǔn)確性換取效率。最開始我們用過 Pagerank ，后來嘗試了 Hadoop 也不是很理想，計(jì)算量太大。最后我們優(yōu)化了算法，換了 Graphlab 的計(jì)算引擎。

在對微博數(shù)據(jù)進(jìn)行上面提到的計(jì)算分析之前，我們其實(shí)還做了很多數(shù)據(jù)處理的工作。大家都知道，數(shù)據(jù)大體可以分為兩種，一種是非結(jié)構(gòu)化數(shù)據(jù)，一種是結(jié)構(gòu)化的數(shù)據(jù)。

比方說：微博抓下來的大多都是人口屬性和 Json ，這些屬于結(jié)構(gòu)化數(shù)據(jù)；同時(shí)，大家發(fā)的140個(gè)字的微博內(nèi)容，這些就屬于非結(jié)構(gòu)化的數(shù)據(jù)。而在簡歷數(shù)據(jù)匹配的項(xiàng)目里，簡歷內(nèi)容和職位要求也大多是非結(jié)構(gòu)化的。

對于非結(jié)構(gòu)話數(shù)據(jù)的匹配分析，就要用聚類分類的算法了。簡歷匹配的場景，主要適用于在茫茫簡歷中找到和企業(yè)自身職位相關(guān)性最高的簡歷，或者一個(gè)應(yīng)聘者需要快速找到和自己相關(guān)度最高的職位，這個(gè)時(shí)候，為結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)備的傳統(tǒng)的目錄索引的方式就很難滿足需求了。舉個(gè)例子，即便都是 Java 工程師，不同公司給這個(gè)崗位取的名稱可能不一樣（ Java 工程師、后端工程師等等），這個(gè)時(shí)候就要看詳細(xì)的職位要求，通過對非結(jié)構(gòu)的“崗位描述”信息進(jìn)行聚類分析來實(shí)現(xiàn)匹配。

機(jī)器學(xué)習(xí)主要分為兩種，無監(jiān)督學(xué)習(xí)和有監(jiān)督的學(xué)習(xí)。

我們做簡歷的項(xiàng)目運(yùn)用的就是無監(jiān)督的 LDA 算法，這個(gè)在廣告領(lǐng)域應(yīng)用較多，核心原理你可以認(rèn)為我們想要聚類分類的就是一些方向，每一個(gè)文本行可以是一堆向量，向量有長度和方向，最終我們通過比較找到這些向量的相似性。

再解釋下，比如一個(gè)簡歷認(rèn)為是一個(gè)處理單元，我們預(yù)先準(zhǔn)備好職位相關(guān)的詞庫，然后這些詞可以認(rèn)為就是方向，我們將簡歷 TF-IDF 算法處理后，去除無關(guān)詞匯，其實(shí)就是一些詞和詞頻的組合，可以認(rèn)為是向量和向量的長度，然后再進(jìn)行聚類，因?yàn)槭菬o監(jiān)督，所以我們需要去預(yù)估大概有多少個(gè)分類，然后不停去調(diào)配參數(shù)，最終得到一些聚類。

用戶畫像其實(shí)就是像上述一樣，我們會設(shè)計(jì)好很多人口特征的維度，也會根據(jù)我們的數(shù)據(jù)源去找到可以潛在推測的維度，那么這些維度就可能構(gòu)成人物的畫像，例如影響力，消費(fèi)能力，興趣能力，品牌標(biāo)簽等等，又結(jié)合應(yīng)用領(lǐng)域的不一樣，標(biāo)簽往往要從細(xì)分領(lǐng)域提取，所以就提到要去抓取垂直網(wǎng)站的語料，然后抽取訓(xùn)練，最后給用戶打標(biāo)簽，或者給用戶聚類分類。

我們建立了龐大的用戶數(shù)據(jù)庫，一直服務(wù)于廣告營銷等行業(yè)。但是在做這個(gè)過程中，我們深深感受到的是當(dāng)今企業(yè)內(nèi)分析能力的不足，以及過多的分析需求聚焦于“流量獲取”上，總想從外部拿到數(shù)據(jù)匹配用戶的標(biāo)簽，但是自己的業(yè)務(wù)數(shù)據(jù)分析處理很薄弱，另外一方面也是不關(guān)心用戶的 engagement ，所以我才想到要做第一方數(shù)據(jù)分析工具，幫助更多企業(yè)從內(nèi)容數(shù)據(jù)處理優(yōu)化做起。

第一方數(shù)據(jù)分析

接下來來聊聊第一方數(shù)據(jù)分析。

第一方數(shù)據(jù)簡單來理解就是自有數(shù)據(jù)，大多數(shù)公司的自有數(shù)據(jù)就是數(shù)據(jù)庫里用戶產(chǎn)生的業(yè)務(wù)數(shù)據(jù)，數(shù)據(jù)分析意識高一點(diǎn)的公司可能會嘗試通過日志收集一些用戶的行為數(shù)據(jù)。所謂行為數(shù)據(jù)就是包括進(jìn)入產(chǎn)品、瀏覽等一系列的使用行為，或者收藏、關(guān)注、購買、搜索等一系列的業(yè)務(wù)行為。

對于大多數(shù)初期小公司而言，都沒有自己的數(shù)據(jù)分析平臺，所以多數(shù)時(shí)候的第一方數(shù)據(jù)分析是依賴于工程師寫腳本，根據(jù)需求去查數(shù)據(jù)庫。大量的時(shí)間都浪費(fèi)在溝通、確認(rèn)需求、寫腳本、等待結(jié)果運(yùn)算這些流程中。

對于很多有一定能力的互聯(lián)網(wǎng)公司，公司內(nèi)部也開始構(gòu)建自己的數(shù)據(jù)分析平臺，并且已經(jīng)開始收集用戶的行為數(shù)據(jù)進(jìn)行分析，但是大多數(shù)對于行為的數(shù)據(jù)利用還是限制于兩種：

第一種做法還是傳統(tǒng) BI，基于 Oracle 等關(guān)系型數(shù)據(jù)庫或者基于 Hadoop 的統(tǒng)計(jì)分析。一般來講就是設(shè)計(jì)好數(shù)據(jù)倉庫的模型，包括待分析的一些維度，然后基于維度進(jìn)行匯總統(tǒng)計(jì)，比如在產(chǎn)品領(lǐng)域，就是去統(tǒng)計(jì)一些關(guān)鍵行為的發(fā)生次數(shù)，常見的就是計(jì)算頁面訪問量、獨(dú)立用戶數(shù)、留存率等指標(biāo)，簡而言之也就是用于統(tǒng)計(jì)結(jié)果。

第二種做法就是利用行為數(shù)據(jù)進(jìn)行個(gè)性化的數(shù)據(jù)推薦。這個(gè)還是比較 Make Sense 的，從早期亞馬遜的推薦到 Facebook 的相關(guān)推薦，這個(gè)是我比較推崇的：不只計(jì)算結(jié)果，而是運(yùn)用數(shù)據(jù)優(yōu)化業(yè)務(wù)。

個(gè)性化推薦現(xiàn)在常用的就是協(xié)同過濾。基本也是分為兩種，一個(gè)是基于熱度，一個(gè)是基于興趣。前者是 user-based，后者是 item-based，如果你想打造一個(gè)興趣社區(qū)，那么一定要避免根據(jù)統(tǒng)計(jì)結(jié)果，進(jìn)行熱門推薦，而興趣推薦的一個(gè)重點(diǎn)就是要預(yù)設(shè)一些標(biāo)簽。

綜合以上兩類公司的做法來看，其實(shí)用戶的產(chǎn)品互動行為數(shù)據(jù)基本上始終被當(dāng)做一個(gè)黑盒子來看，推薦算法雖然對這些數(shù)據(jù)利用的比較好但是只是一個(gè)對單用戶縱深的分析做法，而橫向的用戶分析最終止于高度匯總的報(bào)表，并不能探索和驗(yàn)證用戶在產(chǎn)品上的行為如何影響了公司的業(yè)務(wù)指標(biāo)。一個(gè)典型的現(xiàn)象就是很多產(chǎn)品的迭代決策靠的是猜測或者直覺。

所以基于這些考慮，我們就想怎么才能打造一個(gè)更加有意義的第一方數(shù)據(jù)分析平臺，而不只是多維交叉匯總結(jié)果。

于是就想到了做諸葛 io，那諸葛 io 和過去的第一方數(shù)據(jù)運(yùn)用有什么區(qū)別呢？我們先從業(yè)務(wù)來看就是以用戶為中心，所以“流量時(shí)代”關(guān)注的是用戶數(shù)量結(jié)果，BI關(guān)注的是維度聚合結(jié)果，而我們關(guān)心的是用戶。

諸葛 io 目前已經(jīng)在青云 QingCloud 應(yīng)用中心上線，歡迎各位青云的用戶前去使用。

我們過去看到一些 Dashboard 的圖表，上升下降可能很難找到原因，因?yàn)橐婚_始分析的基礎(chǔ)就是維度匯總的數(shù)據(jù)。

但是如果所有的數(shù)據(jù)以獨(dú)立的用戶跟蹤為基礎(chǔ)就不一樣了，假若我們看到新增的這些數(shù)字，或者匯總分布的結(jié)果，我們可以找到每個(gè)具體數(shù)字背后的人，能還原這些用戶的豐富業(yè)務(wù)標(biāo)簽和維度，亦然可以做更多的比較和分析了。

可以說“行為即標(biāo)簽”。用戶的行為數(shù)據(jù)、之前每次的交互行為等，都可以構(gòu)成豐富的業(yè)務(wù)標(biāo)簽。舉“知乎”這個(gè)社區(qū)為例，“關(guān)注了XX話題”“關(guān)注了XX用戶”“點(diǎn)贊了XX內(nèi)容”“分享XX文章”，這些行為本身就是非常豐富且有用的標(biāo)簽，組合起來亦然。基于用戶在產(chǎn)品內(nèi)的行為所構(gòu)建的標(biāo)簽體系，比之前說的第三方數(shù)據(jù)計(jì)算出標(biāo)簽意義更大。因?yàn)榛谛袨樵O(shè)定的標(biāo)簽，后續(xù)是能反作用于用戶的，我們可以為不同行為標(biāo)簽下的用戶群設(shè)定更精準(zhǔn)的運(yùn)營策略，例如內(nèi)容推薦、活動促銷、精準(zhǔn)推送等等。

最后，再從技術(shù)上來講講，主要使用的其實(shí)還是 lambda 架構(gòu)。

我們以 Kafka 為消息中心，利用多層生產(chǎn)者與消費(fèi)者的概念，對數(shù)據(jù)進(jìn)行運(yùn)用，例如實(shí)時(shí)計(jì)算、打標(biāo)簽、導(dǎo)入數(shù)據(jù)倉庫、備份等等。

數(shù)據(jù)存儲，也用了 SQL 和 NoSQL，但 SQL 也是用的列式存儲數(shù)據(jù)庫，NoSQL 諸如對 Elastic search 進(jìn)行索引，承載一些快速查詢的場景，關(guān)系型主要用于復(fù)雜計(jì)算，因?yàn)槲覀儾恢故怯脩簟⑹录蓚€(gè)主題，還有會話，所以復(fù)雜度很高，中間我們也用了一些小 trick ，以后有機(jī)會和大家分享一下。

以上是我本次的分享，謝謝大家。

Q&A

如何高效的剔除無用的數(shù)據(jù)，減少大量批量注冊的用戶的數(shù)據(jù)，讓數(shù)據(jù)挖掘更加有價(jià)值。
第一層就是通過簡單的ip或者其他反spam規(guī)則過濾，第二層就是基于用戶行為分層可以做一些過濾，比如滿足完成過某些行為或者訪問次數(shù)大于多少天的等等，第三層就是用戶聚類可以找到這些差異用戶

如何提高爬蟲的效率，剔除無價(jià)值的信息
這個(gè)問題和數(shù)據(jù)分析很類似，就是先明確目的，然后過濾無關(guān)數(shù)據(jù)源，比如說如果是計(jì)算標(biāo)簽，那么確定需要的垂直網(wǎng)站，語料范圍等等，再開始定向抓取，有些人會直接用廣度優(yōu)先的開源爬蟲框架根據(jù)URL抓取，多設(shè)置些相關(guān)性規(guī)則

如何繞開被爬取對方的對于防爬蟲的機(jī)制
剛剛已經(jīng)講了一些，一定要思路靈活，潛在的漏洞，可觸及的訪問方式，幾近的模擬，肯定有辦法的

請問如何有效防止爬蟲爬取網(wǎng)站數(shù)據(jù)，防止盜取盜鏈
反爬的策略也是一層層的，最簡單的就是UA或者Referer或者cookie的http協(xié)議設(shè)定，會攔住一大批初級爬蟲，然后就是高級一點(diǎn)的請求次數(shù)權(quán)限控制，最后可能就是要損失一些用戶體驗(yàn)了，驗(yàn)證碼等等，另外HTTPS很重要，防止網(wǎng)關(guān)大規(guī)模用戶token泄露

何種算法對于用戶肖像描繪比較適合
這個(gè)問題不好回答哈，分享中提及到了影響力、標(biāo)簽算法，其實(shí)還是要根據(jù)業(yè)務(wù)應(yīng)用場景以及數(shù)據(jù)源來的，很靈活

對于多項(xiàng)數(shù)據(jù)分析，比如天氣的陰晴雨雪如何設(shè)定權(quán)值更合理
權(quán)值需要設(shè)定結(jié)果目標(biāo)，然后多做測試，相關(guān)性分析，調(diào)配參數(shù)

怎樣建立一種評估體系，讓真正有價(jià)值的大數(shù)據(jù)凸顯出來，同時(shí)可以節(jié)省成本呢？
這其實(shí)就是諸葛io在做的，現(xiàn)在的大數(shù)據(jù)大多都是aggregation，真正的大數(shù)據(jù)要懂user behavior，然后個(gè)性化服務(wù)，以及產(chǎn)品市場策略，提高ROI，也降低用戶發(fā)現(xiàn)價(jià)值的成本，那么企業(yè)就更有可能提升效益，以及降低成本了

customer acquisition時(shí)代我們依賴第三方數(shù)據(jù)進(jìn)行匹配和用戶獲取，但是customer engagement時(shí)代，我們要做的是理解user behavior，提高轉(zhuǎn)化率，和企業(yè)效率

企業(yè)在線搜集用戶數(shù)據(jù)，在做大數(shù)據(jù)分析時(shí)如何平衡企業(yè)效用與網(wǎng)絡(luò)用戶個(gè)人隱私之間的關(guān)系，尊重和保證網(wǎng)絡(luò)用戶的個(gè)人隱私？
歐盟有很多規(guī)范，至少比國內(nèi)現(xiàn)在很多企業(yè)通過植入SDK到開發(fā)者程序，通過覆蓋抓取客戶數(shù)據(jù)，然后來支撐自己的商業(yè)利益有很多，比如你們用google和apple的服務(wù)經(jīng)常會彈出是否允許收集資料要好很多

現(xiàn)在數(shù)據(jù)隱私泄露很普遍，比如大家的短信，網(wǎng)絡(luò)的DNS劫持都被某些數(shù)據(jù)商販賣，黑色產(chǎn)業(yè)鏈
另外未來的數(shù)據(jù)分析和交換更多可能會基于企業(yè)自由交易，以及用戶的身份加密

托管Hadoop集群 USDP大數(shù)據(jù)平臺大數(shù)據(jù)用戶畫像大數(shù)據(jù)用戶畫像分析獲取用戶畫像大數(shù)據(jù) 大數(shù)據(jù)用戶畫像教程

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/25174.html

發(fā)表評論

登陸后可評論

0條評論

XanaHopper

男|高級講師

我要關(guān)注我要私信

TA的文章

非常實(shí)用的在線工具網(wǎng)站清單

閱讀 1806·2021-11-18 10:02
Leetcode 刷題（持續(xù)更新）

閱讀 3540·2021-11-16 11:45
??思維導(dǎo)圖整理大廠面試高頻數(shù)組10: 3種方法徹底解決中位數(shù)問題, 力扣4??

閱讀 1802·2021-09-10 10:51
HTML、CSS、meta常用代碼

閱讀 2122·2019-08-30 15:43
移動端兼容問題總結(jié)(2)

閱讀 1389·2019-08-30 11:23
從隱藏元素談起

閱讀 1497·2019-08-29 11:07
Decorator:從原理到實(shí)踐，我一點(diǎn)都不虛~

閱讀 1903·2019-08-23 17:05
JavaScript--變量與基本數(shù)據(jù)類型

閱讀 1441·2019-08-23 16:14

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

技術(shù)培訓(xùn) | 大數(shù)據(jù)分析處理與用戶畫像實(shí)踐

相關(guān)文章

發(fā)表評論

0條評論

XanaHopper

男|高級講師

TA的文章

非常實(shí)用的在線工具網(wǎng)站清單

Leetcode 刷題（持續(xù)更新）

??思維導(dǎo)圖整理大廠面試高頻數(shù)組10: 3種方法徹底解決中位數(shù)問題, 力扣4??

HTML、CSS、meta常用代碼

移動端兼容問題總結(jié)(2)

從隱藏元素談起

Decorator:從原理到實(shí)踐，我一點(diǎn)都不虛~

JavaScript--變量與基本數(shù)據(jù)類型

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

技術(shù)培訓(xùn) | 大數(shù)據(jù)分析處理與用戶畫像實(shí)踐

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！