摘要:為什么要用機(jī)器學(xué)習(xí)來(lái)分析風(fēng)險(xiǎn)用戶設(shè)備咋眼一看,風(fēng)險(xiǎn)分析師根據(jù)一個(gè)用戶或者設(shè)備的各種統(tǒng)計(jì)性數(shù)據(jù)來(lái)分析風(fēng)險(xiǎn)的用戶或者設(shè)備,這個(gè)分析判斷的過(guò)程是適合機(jī)器學(xué)習(xí)的目的。
toyld 豈安科技搬運(yùn)代碼負(fù)責(zé)人起源 1我們是誰(shuí),為什么要做這些主導(dǎo)各處的挖坑工作,擅長(zhǎng)挖坑于悄然不息,負(fù)責(zé)生命不息,挖坑不止。
我們是一家業(yè)務(wù)風(fēng)控公司, 公司的一項(xiàng)主要業(yè)務(wù)是提供給客戶私有化部署的風(fēng)控系統(tǒng)和長(zhǎng)期的風(fēng)控分析服務(wù),最后提供給客戶的產(chǎn)出,簡(jiǎn)單歸納來(lái)說(shuō)就是哪些ip,哪些用戶,哪些設(shè)備,哪些頁(yè)面存在風(fēng)險(xiǎn),并提供確實(shí)的證據(jù)。因?yàn)榭蛻舻男枨?、訪問(wèn)流量、內(nèi)部架構(gòu)情況各不相同,前期雙方對(duì)接中涉及爬蟲、訂單、營(yíng)銷活動(dòng)等大量業(yè)務(wù)信息需要大量的時(shí)間投入,接入之后分析師需要大量的時(shí)間來(lái)觀察、分析、跟客戶的不斷溝通,因?yàn)楫?dāng)遇到某些業(yè)務(wù)細(xì)節(jié)的時(shí)候,溝通的成本就會(huì)被放大,才能確認(rèn)最后完成策略的制定,然后觀察效果,如此反復(fù)來(lái)確定風(fēng)險(xiǎn)IP、風(fēng)險(xiǎn)用戶、風(fēng)險(xiǎn)設(shè)備和風(fēng)險(xiǎn)頁(yè)面,即客戶所需的業(yè)務(wù)風(fēng)險(xiǎn)評(píng)估。
2為什么要分析網(wǎng)站結(jié)構(gòu)、網(wǎng)站關(guān)鍵路徑?分析、計(jì)算成本的上升
一個(gè)最簡(jiǎn)單的博客,只有博文的增刪改查4個(gè)功能,1個(gè)URL接口,但是這樣一個(gè)博客現(xiàn)在是不可能作為產(chǎn)品投入使用的,自然而然的,評(píng)論、標(biāo)簽、類別、用戶權(quán)限系統(tǒng)、分享... 隨著功能的不斷完善,接口數(shù)量也隨之不斷增加,更恐怖的是后端程序經(jīng)常將id之類的非固定內(nèi)容放到URL當(dāng)中,所以我們?cè)诮o客戶提供私有化風(fēng)控服務(wù)的時(shí)候常有幾十萬(wàn)甚至百萬(wàn)量級(jí)的URL進(jìn)行數(shù)據(jù)統(tǒng)計(jì),這一點(diǎn)在一開始的時(shí)候確實(shí)會(huì)造成我們計(jì)算和運(yùn)營(yíng)分析資源的浪費(fèi),因?yàn)榉治龅膶?duì)象遠(yuǎn)遠(yuǎn)超過(guò)了可人工審查的范圍,最后也只能靠分析師通過(guò)和客戶的交涉和自己去使用客戶網(wǎng)站的最原始的方法來(lái)縮減需要特別關(guān)注或需要制定阻斷策略的。
簡(jiǎn)而言之就是隨著業(yè)務(wù)的不斷發(fā)展, 復(fù)雜度無(wú)疑是以更快的速度增長(zhǎng),由此帶來(lái)我們運(yùn)營(yíng)分析的溝通、時(shí)間成本和我們風(fēng)控系統(tǒng)計(jì)算成本的浪費(fèi),我們迫切的想解決這個(gè)問(wèn)題。
報(bào)警監(jiān)控
最基礎(chǔ)的監(jiān)控可能只是針對(duì)訪問(wèn)量、流量和一些服務(wù)器機(jī)器性能指標(biāo)的,如果監(jiān)控所有的頁(yè)面,又顯得目標(biāo)太散,換句話說(shuō)就是我們盯著全北京的所有路面情況全面標(biāo)紅沒有意義,我們只關(guān)心我們到家的路徑上是否堵車,對(duì)客戶也是一樣,只關(guān)心核心資源、活動(dòng)頁(yè)面這樣的關(guān)鍵節(jié)點(diǎn)是否被攻擊就足夠了。但是只是簡(jiǎn)單的篩選出需要監(jiān)控的頁(yè)面,監(jiān)控其余所有頁(yè)面的系統(tǒng)資源也是一種奢侈的浪費(fèi),所以我們的結(jié)論就是:只監(jiān)控我們關(guān)心的重要頁(yè)面就好,不關(guān)心多余的頁(yè)面,不需要多余的服務(wù)器計(jì)算資源,豈不是一步到位?
北京交通流量全線標(biāo)紅
目的地: 家, 導(dǎo)航全綠
機(jī)器學(xué)習(xí)
和報(bào)警監(jiān)控的需求類似,機(jī)器學(xué)習(xí)需要關(guān)注的只是少量關(guān)鍵資源節(jié)點(diǎn)上IP、用戶、設(shè)備的行為統(tǒng)計(jì)數(shù)據(jù),因?yàn)榕老x、訂單之類業(yè)務(wù)風(fēng)險(xiǎn)流量是不會(huì)盯著一個(gè)404頁(yè)面做文章的。
3為什么要用機(jī)器學(xué)習(xí)來(lái)分析風(fēng)險(xiǎn)IP、用戶、設(shè)備?咋眼一看,風(fēng)險(xiǎn)分析師根據(jù)一個(gè)IP、用戶或者設(shè)備的各種統(tǒng)計(jì)性數(shù)據(jù)來(lái)分析風(fēng)險(xiǎn)的IP、用戶或者設(shè)備,這個(gè)分析判斷的過(guò)程是適合機(jī)器學(xué)習(xí)的目的。
人工分析的成本
筆者所接觸到的傳統(tǒng)風(fēng)控都是世代累計(jì)的案例構(gòu)成的成百上千的策略來(lái)完成的,通過(guò)初篩一些可疑的用戶,然后堆人來(lái)分析案例,然后復(fù)審,逐漸累計(jì)匯總成為策略,口耳相傳。但是我們的風(fēng)控服務(wù)是面向各行業(yè)的客戶的,所以只靠堆人已經(jīng)不能滿足我們的,我們還需要加快效率。我們的愿景是教會(huì)機(jī)器學(xué)習(xí)這個(gè)學(xué)生,能夠幫助分析師更快的發(fā)現(xiàn)風(fēng)險(xiǎn),最終不斷的自我學(xué)習(xí),接近人工分析的準(zhǔn)確。
過(guò)程那么分析網(wǎng)站結(jié)構(gòu)、網(wǎng)站關(guān)鍵路徑我們遇到了哪些坑呢?
理想中的架構(gòu)
少量的網(wǎng)站入口,層次分明的訪問(wèn)層級(jí),每個(gè)關(guān)鍵資源都是這棵樹的一個(gè)葉子節(jié)點(diǎn),一顆理想完美的網(wǎng)站樹結(jié)構(gòu),只要找到了網(wǎng)站的入口,剩下的問(wèn)題只是遍歷圖中的路徑了,單純的筆者,一開始是這么以為的。
現(xiàn)實(shí)
當(dāng)網(wǎng)站被搜索引擎全網(wǎng)索引的時(shí)候,網(wǎng)站的大量流量是直接從搜索引擎頁(yè)面直接抵達(dá),網(wǎng)站的入口成了擺設(shè),人們可以直達(dá)想要的內(nèi)容頁(yè)面,從此沒有了清晰的訪問(wèn)路徑, 對(duì)于用戶可能是一件好事,但是網(wǎng)站規(guī)劃的訪問(wèn)路徑被繞過(guò),損失的可能就不止是廣告的瀏覽量了,一旦爬蟲之流偽裝成搜索引擎,到時(shí)候的難題就是無(wú)法分辨真實(shí)的爬蟲還是真實(shí)的流量。
App端,隨著移動(dòng)端的流量逐年增大,很多公司的后端架構(gòu)都往微服務(wù)方向轉(zhuǎn)型,既后端只提供API,具體的業(yè)務(wù)是放到了具體平臺(tái)的App中,這樣帶來(lái)的結(jié)果是,雖然用戶可以離線使用任何不帶網(wǎng)絡(luò)訪問(wèn)的本地內(nèi)容,但是用戶在App客戶端中的訪問(wèn)路徑之類的數(shù)據(jù)的不再像傳統(tǒng)網(wǎng)站一樣是現(xiàn)成的了。
單頁(yè)應(yīng)用這樣動(dòng)態(tài)前端的網(wǎng)站,隨著前后端分離的趨勢(shì),跟App端流量類似的是業(yè)務(wù)、頁(yè)面訪問(wèn)的邏輯都放到了前端,前端控制后端接口調(diào)用,所以我們只知道了用戶調(diào)用了什么接口,不知道用戶從哪里來(lái)在什么地方調(diào)用的接口。
很多URL是由像id這樣的動(dòng)態(tài)內(nèi)容構(gòu)成的,所以沒人知道URL究竟有多少個(gè)。
機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)業(yè)務(wù)風(fēng)險(xiǎn)我們遇到了哪些坑呢?
理想情況
機(jī)器學(xué)習(xí)來(lái)根據(jù)客戶流量日志來(lái)預(yù)測(cè)風(fēng)險(xiǎn)就跟機(jī)器學(xué)習(xí)來(lái)判斷瓜是否好吃的經(jīng)典案例一樣,我們清楚的知道瓜的好吃與否與你看到瓜時(shí)殘留的藤的長(zhǎng)度無(wú)關(guān)(既特征篩選符合直覺), 只跟瓜的外表圖案、響聲,品種等有限的特征有關(guān)(特征新增、挑選簡(jiǎn)單), 結(jié)果是否準(zhǔn)確,吃一口就知道了(判斷條件簡(jiǎn)單,可解釋性就強(qiáng),特征好壞容易判斷), 判斷錯(cuò)了,反省一下挑的原則就好了(幾乎沒有錯(cuò)誤懲罰)。
回歸現(xiàn)實(shí)
樣本少,靠人工復(fù)審效率也不高;因?yàn)槊總€(gè)客戶的實(shí)際情況不同,模型的通用性有待考證的情況下,初始樣本就只有傳統(tǒng)策略引擎貢獻(xiàn)的相對(duì)少的量,另外的話,因?yàn)槲覀兊娘L(fēng)控服務(wù)追求的是準(zhǔn)確,所以只能犧牲分析師的時(shí)間效率,初期訓(xùn)練模型的話,還需要分析師的復(fù)審之后篩選出新的樣本,擴(kuò)充了樣本庫(kù)之后,再重新訓(xùn)練如此反復(fù),反而增加了分析師的分析負(fù)擔(dān)。
訓(xùn)練出來(lái)的模型通用性, 因?yàn)槲覀兎?wù)的是各行業(yè)的客戶,各個(gè)客戶的現(xiàn)實(shí)問(wèn)題各不相同,有的被爬蟲困擾,有的是活動(dòng)營(yíng)銷被薅羊毛,所以在每個(gè)客戶的私有化部署環(huán)境里面訓(xùn)練出來(lái)的模型很有可能是不具備通用性的。
特征的增加和篩選很糾結(jié);當(dāng)一些常見的統(tǒng)計(jì)特征,例如總量、比率,都加上之后,可能就一百出頭的特征,這時(shí)候訓(xùn)練的效果并不是太好 ,愁的是如何增加特征,但是當(dāng)我們的特征增加到十幾k的時(shí)候,訓(xùn)練結(jié)果并沒有飛躍性的提升,這時(shí)候我們愁的是如何自動(dòng)化的篩選出完全無(wú)關(guān)的特征,特征太多的時(shí)候,不僅僅是無(wú)法解釋,數(shù)據(jù)量過(guò)大,對(duì)于程序而言,還需要針對(duì)內(nèi)存使用進(jìn)行專門的優(yōu)化。
因?yàn)殄e(cuò)誤懲罰的后果嚴(yán)重仍然無(wú)法完全脫離分析師的復(fù)審; 跟挑西瓜失敗不同的是,我們不能簡(jiǎn)單的重頭來(lái)過(guò),因?yàn)檫@樣錯(cuò)怪一個(gè)好人導(dǎo)致的結(jié)果很可能是客戶需要面對(duì)一個(gè)憤怒的正常用戶的投訴,一個(gè)失誤就可能引發(fā)對(duì)我們系統(tǒng)可靠性的嚴(yán)重懷疑,面對(duì)如此嚴(yán)重的錯(cuò)誤懲罰,所以我們只能對(duì)于模型預(yù)測(cè)的風(fēng)險(xiǎn)再通過(guò)分析師的專家復(fù)審去尋求一個(gè)合理的解釋,才能加入到傳統(tǒng)策略引擎的風(fēng)險(xiǎn)預(yù)測(cè)的結(jié)果中。
成果分析網(wǎng)頁(yè)重要性的解決方案
第一步,折疊動(dòng)態(tài)URL, 簡(jiǎn)單說(shuō)來(lái)就是通過(guò)將URL分層,通過(guò)配置的閾值來(lái)控制動(dòng)態(tài)層次的總體大小 ,一旦超過(guò)閾值就自動(dòng)折疊, 最后的結(jié)果是我們page頁(yè)面維度的對(duì)象數(shù)量下降了至少2個(gè)數(shù)量級(jí),從一般幾十萬(wàn)縮減到了幾千,我們滿意了么?還沒有。
第二步,在折疊URL的基礎(chǔ)上,構(gòu)建網(wǎng)站的訪問(wèn)圖,再進(jìn)一步通過(guò)pagerank算法的計(jì)算和我們自己累計(jì)的一些統(tǒng)計(jì)指標(biāo),分析得出流量入口、關(guān)鍵索引頁(yè)面、關(guān)鍵資源節(jié)點(diǎn)、必經(jīng)路徑,一些黑名單頁(yè)面(例如404跳轉(zhuǎn)頁(yè)面), 然后再通過(guò)訪問(wèn)流量構(gòu)建這些關(guān)鍵節(jié)點(diǎn)之間的訪問(wèn)關(guān)系圖,至此我們成功的將page頁(yè)面維度的對(duì)象數(shù)量減少至小于100的常數(shù)級(jí)別。
基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)預(yù)測(cè)的解決方案
我們?cè)诜治龊玫木W(wǎng)站重要網(wǎng)頁(yè)關(guān)系圖上重放流量,根據(jù)統(tǒng)計(jì)的IP、用戶、設(shè)備的各種行為作為特征,每個(gè)小時(shí)跟策略引擎產(chǎn)生的風(fēng)險(xiǎn)IP、用戶、設(shè)備做新的樣本集,來(lái)繼續(xù)增強(qiáng)學(xué)習(xí)已有的模型,并且產(chǎn)出一些不在樣本集的風(fēng)險(xiǎn)IP、用戶、設(shè)備供給分析師做復(fù)審。
每個(gè)小時(shí)會(huì)以上個(gè)小時(shí)的模型為基礎(chǔ),根據(jù)樣本集,來(lái)遍歷所有算法、自動(dòng)調(diào)優(yōu)所有的特征,給出一個(gè)當(dāng)前小時(shí)最佳模型。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41306.html
摘要:為什么要用機(jī)器學(xué)習(xí)來(lái)分析風(fēng)險(xiǎn)用戶設(shè)備咋眼一看,風(fēng)險(xiǎn)分析師根據(jù)一個(gè)用戶或者設(shè)備的各種統(tǒng)計(jì)性數(shù)據(jù)來(lái)分析風(fēng)險(xiǎn)的用戶或者設(shè)備,這個(gè)分析判斷的過(guò)程是適合機(jī)器學(xué)習(xí)的目的。 toyld 豈安科技搬運(yùn)代碼負(fù)責(zé)人主導(dǎo)各處的挖坑工作,擅長(zhǎng)挖坑于悄然不息,負(fù)責(zé)生命不息,挖坑不止。 起源 1我們是誰(shuí),為什么要做這些 我們是一家業(yè)務(wù)風(fēng)控公司, 公司的一項(xiàng)主要業(yè)務(wù)是提供給客戶私有化部署的風(fēng)控系統(tǒng)和長(zhǎng)期的風(fēng)控...
摘要:所以,把本人踩過(guò)的一些坑在這里分享出來(lái),讓準(zhǔn)備搭建風(fēng)控的人心里有個(gè)數(shù)。這種配合周期非常長(zhǎng),但可以按照標(biāo)準(zhǔn)來(lái)拿到高質(zhì)量的信息,所以是比較常見的風(fēng)控系統(tǒng)搭建方式。 作者前言 從業(yè)近10年,大大小小參與了3家公司不同領(lǐng)域的風(fēng)控系統(tǒng)的設(shè)計(jì),從前到后把風(fēng)控系統(tǒng)所有環(huán)節(jié)都細(xì)細(xì)的琢磨過(guò),然而至今仍然感覺剛剛一只腳踏進(jìn)門而已。 大多數(shù)人做的產(chǎn)品都是目的明確的,比如訂單支付、賬戶體系要做什么一開始就知道...
摘要:目前的數(shù)據(jù)標(biāo)注工廠,多集中在河北河南山東山西等地區(qū),這同以富士康為代表的傳統(tǒng)人力密集企業(yè)的選址偏好重合度極高以更低廉的勞動(dòng)力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求。 開玩笑的時(shí)候,小雪說(shuō)她的男友是 AI 產(chǎn)業(yè)中工資較低的那個(gè),其次就是她自己。剛從濟(jì)南德州信息工程學(xué)校計(jì)算機(jī)專業(yè)畢業(yè),小雪和男友正在接受手寫體錄入培訓(xùn),當(dāng)她能認(rèn)識(shí)這些手寫字母后,就輪到她把這些知識(shí)教給計(jì)算機(jī)——把一張張快遞單或...
閱讀 3599·2023-04-26 02:55
閱讀 2866·2021-11-02 14:38
閱讀 4146·2021-10-21 09:39
閱讀 2856·2021-09-27 13:36
閱讀 3967·2021-09-22 15:08
閱讀 2657·2021-09-08 10:42
閱讀 2811·2019-08-29 12:21
閱讀 678·2019-08-29 11:22