成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

海量實時用戶行為數(shù)據(jù)的存儲和分析

Aceyclee / 2958人閱讀

摘要:在短時間內(nèi)爆發(fā)大量數(shù)據(jù),這時數(shù)據(jù)資源的采集存儲和分析和應(yīng)用等,都是大數(shù)據(jù)行業(yè)的難點。挖掘數(shù)據(jù)新的價值面對海量實時行為數(shù)據(jù)的技術(shù)思考,主要是從四個角度來進行第一,必須要以原始數(shù)據(jù)存儲。

在短時間內(nèi)爆發(fā)大量數(shù)據(jù),這時數(shù)據(jù)資源的采集、存儲和分析和應(yīng)用等,都是大數(shù)據(jù)行業(yè)的難點。行為數(shù)據(jù)、日志數(shù)據(jù)的處理,往往成為企業(yè)數(shù)據(jù)建設(shè)首先面對的瓶頸,這些數(shù)據(jù)不易保存,實時獲取分析難度較大,但是數(shù)據(jù)價值卻不可估量。

在大數(shù)據(jù)中,90% 以上的數(shù)據(jù)爆發(fā)來自于行為數(shù)據(jù),就像現(xiàn)在的互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、甚至在產(chǎn)生于物聯(lián)網(wǎng)中用來描述人和物的每一分每一秒的變化的數(shù)據(jù)狀態(tài),這些都是行為數(shù)據(jù)。

行為數(shù)據(jù)能用做什么?

行為數(shù)據(jù)能做什么?有一個簡單的例子 —— 分析訪客行為的路徑,我們拿一個網(wǎng)站的數(shù)據(jù)進行分析,針對網(wǎng)站的訪客,我們可以通過分析其訪問前期、中期、后期的行為習(xí)慣去了解哪些引流的渠道需要加強投入,以及使用這些來指導(dǎo)內(nèi)容編輯和競品研究分析工作。

實際上在做需求時,還有更多的細節(jié)要求如:對數(shù)據(jù)的實時性的要求比較高、要求數(shù)據(jù)的熱點情報的準(zhǔn)確性、與客戶數(shù)據(jù)的協(xié)同分析等。

行為數(shù)據(jù)的處理方式

用戶行為數(shù)據(jù)通常具備以下特征:

用戶基數(shù)大;

高基數(shù)維度比較多;

數(shù)據(jù)量大;

時序的特征。

我們用到的高基維,其中有些維度都是上千萬的高基維參數(shù)。用戶行為數(shù)據(jù)的處理,在支持原始數(shù)據(jù)查詢的同時,也要支持原始數(shù)據(jù)的聚合能力。

原始數(shù)據(jù)的聚合分析這塊又分為兩種,一種是過去常用的做法,通過一個固化的業(yè)務(wù)模型或者主題,提前計算好的數(shù)據(jù),叫做物化視圖。

第二種是基于原始數(shù)據(jù)存儲之后,在實時查詢的過程中進行多維交叉的計算,這個稱為實時聚合。

在查詢過程中對實時聚合的一個分析,也是大家在進行數(shù)據(jù)挖掘分析中共同面臨的一個問題,就是針對海量數(shù)據(jù)。

首先,針對這些數(shù)據(jù),需要快速的檢索出所需要的數(shù)據(jù)的行號。其次,在獲取數(shù)據(jù)所在位置之后,如何快速地把數(shù)據(jù)裝載到內(nèi)存里,最后是裝載到內(nèi)存之后通過分布式計算的方式,怎么去把我們的結(jié)果計算出來。

這些就是在做數(shù)據(jù)的實時查詢過程中的需要具備的基本技術(shù)條件。

挖掘數(shù)據(jù)新的價值

面對海量實時行為數(shù)據(jù)的技術(shù)思考,主要是從四個角度來進行:

第一,必須要以原始數(shù)據(jù)存儲。為什么要基于原始數(shù)據(jù)存儲?因為在整個的數(shù)據(jù)分析階段,可以細分為三個階段。第一個就是傳統(tǒng)的是 BI 階段。第二個是數(shù)據(jù)的挖掘,第三個是數(shù)據(jù)的預(yù)測分析。

想解決這三個階段的過程,以傳統(tǒng)的方法是建一個數(shù)倉,基于數(shù)倉來實施的時,只能面向比較固化的業(yè)務(wù)報表模式,產(chǎn)生一些數(shù)據(jù)的分析結(jié)果,得到?jīng)Q策結(jié)果。如果想做數(shù)據(jù)挖掘時,基于固化業(yè)務(wù)模式計算的結(jié)果的很難滿足數(shù)據(jù)挖掘需求,所以必須從初始階段基于原始數(shù)據(jù)去提取其特征。

基于固化的的業(yè)務(wù)報表模型所獲取數(shù)據(jù)計算的結(jié)果,對數(shù)據(jù)挖掘分析的價值不高。存儲引擎必須以原始數(shù)據(jù)進行存儲,才能既滿足 BI 階段的需求,又可以解決未來數(shù)據(jù)挖掘與數(shù)據(jù)預(yù)測分析的需求。

第二,要滿足實時多維的查詢,是為了在數(shù)據(jù)基于原始數(shù)據(jù)存儲之后,去做到聚合結(jié)果能夠滿足用戶對海量增量數(shù)據(jù)快速查詢的需求。

第三,快速響應(yīng)需求,在企業(yè)內(nèi)部,其實數(shù)據(jù)部門的需求量是最大的,各個業(yè)務(wù)部門的需求都往數(shù)據(jù)中心提,所以數(shù)據(jù)部門必須去解決好如何快速地響應(yīng)業(yè)務(wù)需求。

第四,數(shù)據(jù)的探索分析,以往把數(shù)據(jù),按照固化的業(yè)務(wù)報表模式所獲取的結(jié)果,做二次分析的空間量比較小。所以必須要基于原始多維的數(shù)據(jù)進行數(shù)據(jù)的探索,挖掘數(shù)據(jù)新的價值,而不是按照已有的固化的業(yè)務(wù)模式,只是生產(chǎn)出一些固化的業(yè)務(wù)模型的數(shù)據(jù)。

平臺架構(gòu)

數(shù)果現(xiàn)在基于之前做過的一些技術(shù)的預(yù)言跟驗證,自行研發(fā)了一個基于 Hadoop 加速引擎,稱為 Tindex。之前我也在網(wǎng)絡(luò)上做過萬億級日志與行為數(shù)據(jù)存儲查詢技術(shù)剖析http://www.infoq.com/cn/artic... 的文章 ,也講解了 Tindex 是如何實現(xiàn)的。Tindex 的實現(xiàn)主要基于三點,第一點基于索引,第二點基于類似存儲的方式,第三點做了分布式內(nèi)存計算的框架在 Tindex 中,使之能夠支持?jǐn)?shù)據(jù)的實時的多維分析的能力。

基于加速引擎這塊,在其上層做了一個適配層,有 SQL引擎。SQL 引擎支持 SQL 語句和表達式,還有大數(shù)據(jù)生態(tài)技術(shù),目前已經(jīng)是完全支持?;谶m配層,來做不同的行業(yè)應(yīng)用。這是數(shù)果整個平臺技術(shù)架構(gòu)的一個圖。

平臺特性

平臺的特性方面,支持海量增量數(shù)據(jù)實時接入。在數(shù)據(jù)接入這塊,現(xiàn)在提供可視化埋點,跟文件、MR 的一些數(shù)據(jù)的采集,就像我們目前在做的單進程的接入式,基本上在 3 萬以上,從數(shù)據(jù)的產(chǎn)生,到數(shù)據(jù)顯示、出現(xiàn)查詢結(jié)果,在 5 秒以內(nèi)即可實現(xiàn)。

第二個特性,基于明細數(shù)據(jù)的存儲與預(yù)聚合的存儲分別去搭建。為什么不僅要基于原始數(shù)據(jù)存儲,還需要預(yù)聚合存儲?因為其有兩種不同的需求。第一個是面向固化的高頻查詢的數(shù)據(jù),我們可以基于預(yù)聚合存儲的方式,去查詢其周期跨度比較長的需求,一年兩年都可以進行查詢。但是基于近半年或者一年的數(shù)據(jù)需要進行深度數(shù)據(jù)探索分析的,便可以基于原始明細數(shù)據(jù)做實時聚合分析。還有在基于原始明細數(shù)據(jù)進行分析的時候,他會更佳靈活。

第三,海量數(shù)據(jù)中怎么去實現(xiàn)快速檢索,是基于搜索引擎的索引技術(shù)進行改造的。但是在篩選方式上,目前只能支持時間篩選、文本篩選和數(shù)值篩選,例如文本篩選中支持分詞與模糊匹配,數(shù)值篩選中,數(shù)值的分組和數(shù)值的范圍這些均可支持。

這個展示的是靈活多維的分析,在這個界面中,左邊的這一列中是基于原始明細數(shù)據(jù)產(chǎn)生的所有的維度,可以根據(jù)權(quán)限去進行顯示。而在指標(biāo)方面通過界面拖拽進行多維實時分析,選擇想要的數(shù)據(jù)分析結(jié)果,進行可視化的展示,可以自由地數(shù)據(jù)探索。因為數(shù)據(jù)是基于原始明細數(shù)據(jù)的存儲,所以不需要提前預(yù)計算??梢栽诮缑嫔线M行任意數(shù)據(jù)交叉分析,去了解數(shù)據(jù)的分布態(tài)是非常便捷的。

通過指標(biāo)的靈活定義,來實現(xiàn)實時響應(yīng)的業(yè)務(wù)需求,這個指標(biāo)定義這塊有幾個指標(biāo),一種叫單指標(biāo),即按照某一個維度進行一個聚合計算,通過界面可以簡單、快速完成。另一種叫復(fù)合指標(biāo),需要進行一些四則運算,可以通過這個界面定義出來。

在指標(biāo)這方面還有比較復(fù)雜的,需要通過多個維度進行定義的,可以通過一些表達式,進行快速的定義,定義完成后就通過界面,直接看到結(jié)果,獲得圖形顯示,進行數(shù)據(jù)分析。

支持實時監(jiān)控與跟蹤告警,在多維分析界面中把分析結(jié)果定義出來后,可以直接形成一個實時監(jiān)控大屏,不需要重新開放,多站完成各類需求。

最后一個也是最重要的一個特性,是支持二次的開發(fā)。數(shù)果的平臺提供普通類查詢,有 Timeseries、TopN、select、groupby、firstN、scanQuery。也提供像用戶分組,用戶漏斗查詢,用戶留存查詢這類高級查詢,還支持多種條件的過濾,像日期范圍、數(shù)值范圍、地理坐標(biāo)范圍,還有字符串的精準(zhǔn)匹配。還支持多種聚合的方式。如統(tǒng)計,分組,還有聚合再聚合,這類業(yè)務(wù)場景,也是在業(yè)務(wù)需求中經(jīng)常出現(xiàn)的。

基于平臺我們做了什么?

基于這個平臺實現(xiàn)了指標(biāo)任意定制,因為數(shù)據(jù)是基于原始明細記錄存儲的,所以指標(biāo)的定制這方面,不需要提前預(yù)計算,直接通過界面,通過一些表達式便可以輕松實現(xiàn)。

維度的自由的篩選,可以通過界面,自由地拖拽數(shù)據(jù),就可以完成交叉分析。

基于平臺提供用戶行為分析模型,例如實時的用戶分群,可以通過界面快速的完成。再例如實時的路徑分析,實時的流程分析,實時的漏斗分析。提供了一個智能算法模型,相當(dāng)于在這個模塊實現(xiàn)了,將機械學(xué)習(xí)跟深度學(xué)習(xí)的算法吸收進來,跟我們的平臺打通,就可以實現(xiàn)通過界面的簡單拖拽,來完成大部分算法的模型。用戶也有一些固化的模型,像用戶的擴群,用戶 RFM 細分的模型,用戶流失預(yù)測的模型?;谶@方面也提供了一個實時大屏的模塊,能夠由用戶自由拖拽完成其實時監(jiān)控的需求。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19632.html

相關(guān)文章

  • 新一代智能視頻云發(fā)展現(xiàn)狀分析:五大要素成關(guān)鍵

    摘要:遠程醫(yī)療這一概念被提出后,已經(jīng)被廣泛應(yīng)用。但是,如何提高視頻傳輸性能,如何確保家庭基層醫(yī)療機構(gòu)和戶外應(yīng)急的遠程醫(yī)療快速接入,是當(dāng)前的遠程醫(yī)療業(yè)務(wù)系統(tǒng)面臨的主要挑戰(zhàn)。 編者按:近日,Gartner最新發(fā)布了一份《Five Key Essentials for the New Generation of Intelligent Video Cloud》白皮書報告,報告中針對各行業(yè)在視頻應(yīng)用...

    levy9527 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<