data pipeline 中充斥著驚人的浪費，只是選擇視而不見

JellyBool 發(fā)布于2019-06-25 18:20 / 2098人閱讀

摘要：殊不知機器只是成本，集群規(guī)模只說明我們在大量浪費，不說明任何其他問題。這也是因為組織架構(gòu)決定軟件架構(gòu)的事情。節(jié)省所有人的時間。

越來越多的公司言并稱大數(shù)據(jù)，而大數(shù)據(jù)管道和存儲集群的規(guī)模甚至可以是業(yè)務(wù)集群的一百倍的規(guī)模。這里有多少機器是真正在做有價值的事情，而有多少cpu cycle是白白被浪費掉了呢？data pipeline 中充斥著驚人的浪費！只是我們選擇視而不見。廉不知恥地把集群規(guī)模到了xxx臺做為自己的功勞。殊不知機器只是成本，集群規(guī)模只說明我們在大量浪費，不說明任何其他問題。以下是我的吐槽正文：

重復(fù)建設(shè)

大數(shù)據(jù)很火，寫簡歷上非常好就業(yè)。于是各個部門都進行著重復(fù)性地建設(shè)，從數(shù)據(jù)上報開始就報多份，各自有各自的采集agent。看一個機器上agent的進程名基本上可以推倒出一個公司的組織架構(gòu)。你要是用storm，我就用samza。你們都走日志kafka，我就用udp和statsd。你們用elasticsearch，我就用influxdb，后來的要擠進來為了有區(qū)分度就用了druid。各種類似的技術(shù)棧被掛在數(shù)據(jù)管道的后面做著重復(fù)性的類似的工作。

RD太忙了，我們來兼容吧

建設(shè)data pipeline的同學(xué)和做業(yè)務(wù)的RD是兩幫人。所以就出現(xiàn)了日志是“非結(jié)構(gòu)化數(shù)據(jù)”的需求。日志從來都不是非結(jié)構(gòu)化的好不好。因為搞數(shù)據(jù)人懶得和RD溝通，或者不愿意推動RD去修改業(yè)務(wù)代碼，所以就得做各種定制。什么正則解析啦，什么去掉時間戳的頭啦，什么multiline連接啦。就是json我都覺得是浪費磁盤和cpu的序列化格式。

另外日志的路徑和rotate的方式總是多種多樣的吧。這也是因為組織架構(gòu)決定軟件架構(gòu)的事情。誰規(guī)定了就一定是做data pipeline的人要去監(jiān)控業(yè)務(wù)的日志路徑和rotate方式。為什么不是data pipeline規(guī)定了一個目錄結(jié)構(gòu)讓業(yè)務(wù)一定要打到這個目錄里，而rotate為什么不能是agent發(fā)起的，日志寫入方去follow？

把這兩者的關(guān)系反轉(zhuǎn)過來，可以節(jié)省大量在格式解析，序列化反序列化，日志分揀上帶來的無謂的開銷。制定規(guī)范和標準讓rd去調(diào)整業(yè)務(wù)代碼，而不是跟著業(yè)務(wù)后面去改采集和解析。

各自為戰(zhàn)的數(shù)據(jù)集群

kafka是集群吧，logstash是集群吧，elasticsearch是集群吧。每個集群都有自己的分布式節(jié)點的管理系統(tǒng)（zk的，etcd的，自己擼的），都有自己的數(shù)據(jù)分區(qū)策略。數(shù)據(jù)在不同的集群中倒騰來倒騰去，就在不斷地做rehash，重新分組到不同的partition上。帶來的是巨大的內(nèi)網(wǎng)帶寬的消耗。

把數(shù)據(jù)從一個集群拷貝到另外一個集群就那么好玩么？吹噓自己每秒處理多少數(shù)據(jù)就那么爽？其實deep down，你知道你做的工作不過就是倒個手而已，不是么。

暴力檢索

Map-reduce暴力全表掃描早就是過氣的技術(shù)了。暴力使用hadoop，或者使用hive隱形暴力地mr，堆大量機器地撈數(shù)據(jù)。業(yè)務(wù)一些機器學(xué)習(xí)的算法真地需要這么干，但是大部分BI SQL，絕對是可以充分利用列式存儲和各種索引結(jié)構(gòu)的。無論是elasticsearch還是spark sql都有大量成熟的解決方案了。用索引和不用索引，那效率可是百倍的差距。

是的，全部吐槽無數(shù)據(jù)無干貨，純感性吐槽。

RoR的啟發(fā)

縱觀現(xiàn)在Data pipeline & 監(jiān)控 & 日志檢索 & BI多維查詢的技術(shù)棧，非常類似當(dāng)年的spring，各種可插拔，各種可配置。而我們需要的就是ruby on rails，橫空出世，高舉出convention over configuration的旗號，把一個集成好伸手就用不需思考的解決方案全盤端出。打通各自為戰(zhàn)的管道和存儲集群，整合最牛的索引和存儲格式，把data pipeline的拼裝從專業(yè)技術(shù)變成commodities。亟需這樣一個從業(yè)務(wù)內(nèi)打日志開始，到出時間序列圖的端到端的完整解決方案，把廣大從業(yè)人員從低水平的重復(fù)建設(shè)里解脫出來。

你不就是想省幾臺機器嘛

不在乎這幾臺機器的公司多得是。省計算資源真沒啥好吹噓的。更為寶貴的資源是RD和PM的時間。當(dāng)產(chǎn)品研發(fā)的同學(xué)想要對一個事情進行監(jiān)控，BI的時候，他能不能完全自主地把全流程跑完？現(xiàn)在很多時候我們需要考慮新增的數(shù)據(jù)需要占用不少的新機器，需要去申請。新打的日志要通知另外一個部門去采集，然后再通知另外一個部門去計算，然后去通知另外一個部門去做圖表。這樣的效率能高嗎？搞數(shù)據(jù)的部門別高冷地一副帶你的數(shù)據(jù)來，帶你的需求來，哦對了，帶你的機器來，我?guī)湍愀愀愕膽B(tài)度。而是真地實現(xiàn)平臺化，自助化。別各個部門都跟著業(yè)務(wù)后面做需求，我這加點東西，你那就得加點東西。節(jié)省所有人的時間。時間才是最寶貴的東西。

GPU云服務(wù)器云服務(wù)器 asp中工具箱不見了 Pipeline 存儲卡里的文件怎么隱藏著安裝linux的硬盤不見了

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/17532.html

發(fā)表評論

登陸后可評論

0條評論

JellyBool

男|高級講師

我要關(guān)注我要私信

TA的文章

【程序員必會十大算法】之弗洛伊德算法

閱讀 1219·2021-09-30 09:47
世界這么大，你的那一個他肯定會出現(xiàn)，Python表白代碼大集合(附上源碼）

閱讀 3774·2021-09-06 15:02
Spinservers最新促銷：美國圣何塞高配置獨立服務(wù)器/雙E5-2630L v3/64GB DD

閱讀 1786·2021-09-01 10:46
css屬性總結(jié)

閱讀 2369·2019-08-30 15:52
vue-cli項目根據(jù)線上環(huán)境打出測試包和生產(chǎn)包

閱讀 603·2019-08-29 15:28
圣杯布局中對left盒子設(shè)置負內(nèi)邊距-100%的一點解釋

閱讀 1875·2019-08-29 15:08
Mac版sublime快捷鍵大全

閱讀 1159·2019-08-29 13:28
有關(guān)css重繪和回流的一個例子

閱讀 2582·2019-08-29 12:19

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

data pipeline 中充斥著驚人的浪費，只是選擇視而不見

相關(guān)文章

互聯(lián)網(wǎng)"凜冬"，看大廠HR怎么說~

【Java深入學(xué)習(xí)系列】之CPU的分支預(yù)測(Branch Prediction)模型

Python爬蟲之Scrapy學(xué)習(xí)（基礎(chǔ)篇）

發(fā)表評論

0條評論

JellyBool

男|高級講師

TA的文章

【程序員必會十大算法】之弗洛伊德算法

世界這么大，你的那一個他肯定會出現(xiàn)，Python表白代碼大集合(附上源碼）

Spinservers最新促銷：美國圣何塞高配置獨立服務(wù)器/雙E5-2630L v3/64GB DD

css屬性總結(jié)

vue-cli項目根據(jù)線上環(huán)境打出測試包和生產(chǎn)包

圣杯布局中對left盒子設(shè)置負內(nèi)邊距-100%的一點解釋

Mac版sublime快捷鍵大全

有關(guān)css重繪和回流的一個例子

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

data pipeline 中充斥著驚人的浪費，只是選擇視而不見

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

data pipeline 中充斥著驚人的浪費，只是選擇視而不見