成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

[原]解密Airbnb 自助BI神器:Superset 顛覆 Tableau

Keagan / 2014人閱讀

摘要:概述我非常認(rèn)同前百度數(shù)據(jù)工程師現(xiàn)神策分析創(chuàng)始人桑老師最近談到的數(shù)據(jù)分析三重境界統(tǒng)計(jì)計(jì)數(shù)多維分析機(jī)器學(xué)習(xí)數(shù)據(jù)分析的統(tǒng)計(jì)計(jì)數(shù)和多維分析,我們通常稱之為數(shù)據(jù)探索式分析,這個步驟旨在了解數(shù)據(jù)的特性,有助于我們進(jìn)一步挖掘數(shù)據(jù)的價(jià)值。

概述

我非常認(rèn)同前百度數(shù)據(jù)工程師、現(xiàn)神策分析創(chuàng)始人桑老師最近談到的數(shù)據(jù)分析三重境界:

統(tǒng)計(jì)計(jì)數(shù)

多維分析

機(jī)器學(xué)習(xí)

數(shù)據(jù)分析的統(tǒng)計(jì)計(jì)數(shù)和多維分析,我們通常稱之為數(shù)據(jù)探索式分析,這個步驟旨在了解數(shù)據(jù)的特性,有助于我們進(jìn)一步挖掘數(shù)據(jù)的價(jià)值。而基于我們對數(shù)據(jù)的理解,再引入機(jī)器學(xué)習(xí)的算法對數(shù)據(jù)做出預(yù)測就變得水到渠成了。

現(xiàn)實(shí)世界里,大部分的公司更多時間其實(shí)沒有這個精力去搭建復(fù)雜的數(shù)據(jù)分析平臺,面對快速變化的業(yè)務(wù)需求,很多數(shù)據(jù)工程師都把自己的青春埋葬在SQL里了。(其實(shí)我也是埋葬在SQL里的)

這幾年,所謂的無埋點(diǎn)技術(shù)、自助式分析等等概念開始興起,得益于數(shù)據(jù)領(lǐng)域的快速發(fā)展,國內(nèi)外也涌現(xiàn)了大量基于數(shù)據(jù)分析平臺的start-ups,而隨著技術(shù)的發(fā)展,許多創(chuàng)業(yè)公司也是抱團(tuán)取暖組成一個更大的團(tuán)體。

考慮到國內(nèi)數(shù)據(jù)安全性的問題,即使我們使用大廠比如百度的網(wǎng)站分析服務(wù)也很難保證數(shù)據(jù)安全性,私有化部署才是很多企業(yè)級解決方案的王道。

隨著 Superset 被Airbnb的數(shù)據(jù)科學(xué)部門開源了,我看到的是有許多數(shù)據(jù)分析平臺的創(chuàng)業(yè)公司或許要轉(zhuǎn)變方向了,自助式分析將不再依賴于各大廠商!

什么是Superset

Superset的中文翻譯是快船,而Superset其實(shí)是一個自助式數(shù)據(jù)分析工具,它的主要目標(biāo)是簡化我們的數(shù)據(jù)探索分析操作,它的強(qiáng)大之處在于整個過程一氣呵成,幾乎不用片刻的等待。

Superset 的特性

Superset通過讓用戶創(chuàng)建并且分享儀表盤的方式為數(shù)據(jù)分析人員提供一個快速的數(shù)據(jù)可視化功能。
在你用這種豐富的數(shù)據(jù)可視化方案來分析你的數(shù)據(jù)的同時,Superset還可以兼顧數(shù)據(jù)格式的拓展性、數(shù)據(jù)模型的高粒度保證、快速的復(fù)雜規(guī)則查詢、兼容主流鑒權(quán)模式(數(shù)據(jù)庫、OpenID、LDAP、OAuth或者基于Flask AppBuilder的REMOTE_USER)
通過一個定義字段、下拉聚合規(guī)則的簡單的語法層操作就讓我們可以將數(shù)據(jù)源在U上豐富地呈現(xiàn)。Superset還深度整合了Druid以保證我們在操作超大、實(shí)時數(shù)據(jù)的分片和切分都能行云流水。

數(shù)據(jù)庫支持

Superset 是基于 Druid.io 設(shè)計(jì)的,但是又支持橫向到像 SQLAlchemy 這樣的常見Python ORM框架上面。

那Druid又是什么呢?

Druid 是一個基于分布式的快速列式存儲,也是一個為BI設(shè)計(jì)的開源數(shù)據(jù)存儲查詢工具。Druid提供了一種實(shí)時數(shù)據(jù)低延遲的插入、靈活的數(shù)據(jù)探索和快速數(shù)據(jù)聚合?,F(xiàn)有的Druid已經(jīng)可以支持?jǐn)U展到TB級別的事件和PB級的數(shù)據(jù)了,Druid是BI應(yīng)用的最佳搭檔。

想必,你已經(jīng)受夠了Hive那個龜速查詢,迫不及待想體驗(yàn)一下這種酣暢淋漓的快感了吧!

實(shí)戰(zhàn)

既然,要行云流水,沒有Docker是不行的,想要了解一下Docker可以參考之前的文章:海納百川 有容乃大:SparkR與Docker的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

這里我默認(rèn)你已經(jīng)具備了使用Daocloud加速Docker的知識。

本地跑Docker

下載鏡像:

docker pull index.tenxcloud.com/7harryprince/Superset

跑容器

docker run -p 8088:8088 -d index.tenxcloud.com/7harryprince/Superset

查詢一下你的docekr ip

docker-machine ls
NAME      ACTIVE   DRIVER       STATE     URL                         SWARM   DOCKER    ERRORS
default   -        virtualbox   Running   tcp://192.168.99.100:2376           v1.9.1    
dev       -        virtualbox   Saved                                         Unknown   

這里可以看到我的默認(rèn)Docker的IP是192.168.99.100

所以需要在瀏覽器中訪問 192.168.99.100:8088

這樣我們又是三行代碼搞定了一個大數(shù)據(jù)分析神器。

需要注意到,這個 Superset 容器里的默認(rèn)鑒權(quán)配置是:

username: admin
password: Superset_admin
在線Demo

下面我提供了Superset的一個在線Demo:

http://52.33.104.157:8088/login/

下面是儀表盤的交互式分析頁面:

我們可以導(dǎo)出JSON、CSV文件、直接得到SQL語句甚至分享頁面鏈接。

下面是全球人口的一個分析儀表盤,感覺再改動一下就可以做信息圖了,大數(shù)據(jù)分析也不在話下。

下面是我最喜歡的sankey chart:

架構(gòu)

看到如此驚艷的數(shù)據(jù)產(chǎn)品,想必你也很想自己動手做一個吧!讓我們一起看看整體的架構(gòu)。

后端

整個項(xiàng)目的后端是基于Python的,用到了Flask、Pandas、SqlAlchemy。

Flask AppBuilder(鑒權(quán)、CRUD、規(guī)則)

Pandas(分析)

SqlAlchemy(數(shù)據(jù)庫ORM)

此外,也關(guān)注到Superset的緩存機(jī)制值得我們學(xué)習(xí):

采用memcache和Redis作為緩存

級聯(lián)超時配置

UI具有時效性控制

允許強(qiáng)制刷新

前端

自然前端是JS的天下,用到了npm、react、webpack,這意味著你可以在手機(jī)也可以流暢使用。

d3 (數(shù)據(jù)可視化)

nvd3.org(可重用圖表)

局限性

Superset的可視化,目前只支持每次可視化一張表,對于多表join的情況還無能為力

依賴于數(shù)據(jù)庫的快速響應(yīng),如果數(shù)據(jù)庫本身太慢Superset也沒什么辦法

語義層的封裝還需要完善,因?yàn)閐ruid原生只支持部分sql。

參考資料

Superset GitHub地址

推薦鏡像 kochalex/Superset

知乎:presto、druid、sparkSQL、kylin的對比分析,如性能、架構(gòu)等,有什么異同?

mysql-db installation

Superset - sweet time based visualisation and dashboard reporting

Superset Installation

推薦產(chǎn)品

神策分析:數(shù)據(jù)分析平臺的私有化部署方案

神策目前提供私有化的數(shù)據(jù)分析平臺解決方案,根據(jù)桑老師的說法,現(xiàn)在考慮到安全性的問題,還沒有做到Docker部署,只能遠(yuǎn)程部署(大概半個小時),這里有一絲淡淡的遺憾。

作為分享主義者(sharism),本人所有互聯(lián)網(wǎng)發(fā)布的圖文均遵從CC版權(quán),轉(zhuǎn)載請保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog...,如果涉及源代碼請注明GitHub地址:https://github.com/harryprince。微信號: harryzhustudio
商業(yè)使用請聯(lián)系作者。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37913.html

相關(guān)文章

  • []數(shù)據(jù)科學(xué)教程:如何使用Airflow調(diào)度數(shù)據(jù)科學(xué)工作流

    摘要:概述是一個我們正在用的工作流調(diào)度器,相對于傳統(tǒng)的任務(wù)管理,很好的為我們理清了復(fù)雜的任務(wù)依賴關(guān)系監(jiān)控任務(wù)執(zhí)行的情況。步驟三修改默認(rèn)數(shù)據(jù)庫找到配置文件修改配置注意到,之前使用的的方式是行不通的。微信號商業(yè)使用請聯(lián)系作者。 showImg(https://segmentfault.com/img/remote/1460000006760428?w=1918&h=1556); 概述 Airfl...

    v1 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<