成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

data pipeline 中充斥著驚人的浪費,只是選擇視而不見

JellyBool / 2098人閱讀

摘要:殊不知機器只是成本,集群規(guī)模只說明我們在大量浪費,不說明任何其他問題。這也是因為組織架構(gòu)決定軟件架構(gòu)的事情。節(jié)省所有人的時間。

越來越多的公司言并稱大數(shù)據(jù),而大數(shù)據(jù)管道和存儲集群的規(guī)模甚至可以是業(yè)務(wù)集群的一百倍的規(guī)模。這里有多少機器是真正在做有價值的事情,而有多少cpu cycle是白白被浪費掉了呢?data pipeline 中充斥著驚人的浪費!只是我們選擇視而不見。廉不知恥地把集群規(guī)模到了xxx臺做為自己的功勞。殊不知機器只是成本,集群規(guī)模只說明我們在大量浪費,不說明任何其他問題。以下是我的吐槽正文:

重復(fù)建設(shè)

大數(shù)據(jù)很火,寫簡歷上非常好就業(yè)。于是各個部門都進行著重復(fù)性地建設(shè),從數(shù)據(jù)上報開始就報多份,各自有各自的采集agent。看一個機器上agent的進程名基本上可以推倒出一個公司的組織架構(gòu)。你要是用storm,我就用samza。你們都走日志kafka,我就用udp和statsd。你們用elasticsearch,我就用influxdb,后來的要擠進來為了有區(qū)分度就用了druid。各種類似的技術(shù)棧被掛在數(shù)據(jù)管道的后面做著重復(fù)性的類似的工作。

RD太忙了,我們來兼容吧

建設(shè)data pipeline的同學(xué)和做業(yè)務(wù)的RD是兩幫人。所以就出現(xiàn)了日志是“非結(jié)構(gòu)化數(shù)據(jù)”的需求。日志從來都不是非結(jié)構(gòu)化的好不好。因為搞數(shù)據(jù)人懶得和RD溝通,或者不愿意推動RD去修改業(yè)務(wù)代碼,所以就得做各種定制。什么正則解析啦,什么去掉時間戳的頭啦,什么multiline連接啦。就是json我都覺得是浪費磁盤和cpu的序列化格式。

另外日志的路徑和rotate的方式總是多種多樣的吧。這也是因為組織架構(gòu)決定軟件架構(gòu)的事情。誰規(guī)定了就一定是做data pipeline的人要去監(jiān)控業(yè)務(wù)的日志路徑和rotate方式。為什么不是data pipeline規(guī)定了一個目錄結(jié)構(gòu)讓業(yè)務(wù)一定要打到這個目錄里,而rotate為什么不能是agent發(fā)起的,日志寫入方去follow?

把這兩者的關(guān)系反轉(zhuǎn)過來,可以節(jié)省大量在格式解析,序列化反序列化,日志分揀上帶來的無謂的開銷。制定規(guī)范和標準讓rd去調(diào)整業(yè)務(wù)代碼,而不是跟著業(yè)務(wù)后面去改采集和解析。

各自為戰(zhàn)的數(shù)據(jù)集群

kafka是集群吧,logstash是集群吧,elasticsearch是集群吧。每個集群都有自己的分布式節(jié)點的管理系統(tǒng)(zk的,etcd的,自己擼的),都有自己的數(shù)據(jù)分區(qū)策略。數(shù)據(jù)在不同的集群中倒騰來倒騰去,就在不斷地做rehash,重新分組到不同的partition上。帶來的是巨大的內(nèi)網(wǎng)帶寬的消耗。

把數(shù)據(jù)從一個集群拷貝到另外一個集群就那么好玩么?吹噓自己每秒處理多少數(shù)據(jù)就那么爽?其實deep down,你知道你做的工作不過就是倒個手而已,不是么。

暴力檢索

Map-reduce暴力全表掃描早就是過氣的技術(shù)了。暴力使用hadoop,或者使用hive隱形暴力地mr,堆大量機器地撈數(shù)據(jù)。業(yè)務(wù)一些機器學(xué)習(xí)的算法真地需要這么干,但是大部分BI SQL,絕對是可以充分利用列式存儲和各種索引結(jié)構(gòu)的。無論是elasticsearch還是spark sql都有大量成熟的解決方案了。用索引和不用索引,那效率可是百倍的差距。

是的,全部吐槽無數(shù)據(jù)無干貨,純感性吐槽。

RoR的啟發(fā)

縱觀現(xiàn)在Data pipeline & 監(jiān)控 & 日志檢索 & BI多維查詢的技術(shù)棧,非常類似當(dāng)年的spring,各種可插拔,各種可配置。而我們需要的就是ruby on rails,橫空出世,高舉出convention over configuration的旗號,把一個集成好伸手就用不需思考的解決方案全盤端出。打通各自為戰(zhàn)的管道和存儲集群,整合最牛的索引和存儲格式,把data pipeline的拼裝從專業(yè)技術(shù)變成commodities。亟需這樣一個從業(yè)務(wù)內(nèi)打日志開始,到出時間序列圖的端到端的完整解決方案,把廣大從業(yè)人員從低水平的重復(fù)建設(shè)里解脫出來。

你不就是想省幾臺機器嘛

不在乎這幾臺機器的公司多得是。省計算資源真沒啥好吹噓的。更為寶貴的資源是RD和PM的時間。當(dāng)產(chǎn)品研發(fā)的同學(xué)想要對一個事情進行監(jiān)控,BI的時候,他能不能完全自主地把全流程跑完?現(xiàn)在很多時候我們需要考慮新增的數(shù)據(jù)需要占用不少的新機器,需要去申請。新打的日志要通知另外一個部門去采集,然后再通知另外一個部門去計算,然后去通知另外一個部門去做圖表。這樣的效率能高嗎?搞數(shù)據(jù)的部門別高冷地一副帶你的數(shù)據(jù)來,帶你的需求來,哦對了,帶你的機器來,我?guī)湍愀愀愕膽B(tài)度。而是真地實現(xiàn)平臺化,自助化。別各個部門都跟著業(yè)務(wù)后面做需求,我這加點東西,你那就得加點東西。節(jié)省所有人的時間。時間才是最寶貴的東西。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/17532.html

相關(guān)文章

  • 互聯(lián)網(wǎng)"凜冬",看大廠HR怎么說~

    摘要:寫在前面的話最近互聯(lián)網(wǎng)朋友圈充斥著一股恐慌的氣息。本人作為一名,萬不敢稱資深,只是呆過幾年大型央企和大型互聯(lián)網(wǎng)企業(yè),聊有一點自己的看法罷了。如果不放心,以一周為期,對展示在面前的機會進行初步分級。也可以略高于期望,以此探一探對方的反應(yīng)。 showImg(https://segmentfault.com/img/bVblxeY?w=1008&h=298); 寫在前面的話   最近互聯(lián)網(wǎng)朋...

    renweihub 評論0 收藏0
  • 【Java深入學(xué)習(xí)系列】之CPU分支預(yù)測(Branch Prediction)模型

    摘要:有分支預(yù)測期的我們來看分支預(yù)測器在條件分支跳轉(zhuǎn)中的應(yīng)用。現(xiàn)代流水線級數(shù)非常長,分支預(yù)測失敗可能會損失個左右的時鐘周期,因此對于復(fù)雜的流水線,好的分支預(yù)測器非常重要。 說明: 本文以stackoverflow上Why is it faster to process a sorted array than an unsorted array?為原型,翻譯了問題和高票回答并加入了大量補充說明...

    dunizb 評論0 收藏0
  • Python爬蟲之Scrapy學(xué)習(xí)(基礎(chǔ)篇)

    摘要:下載器下載器負責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子,處理傳遞給引擎的。一旦頁面下載完畢,下載器生成一個該頁面的,并將其通過下載中間件返回方向發(fā)送給引擎。 作者:xiaoyu微信公眾號:Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 在爬蟲的路上,學(xué)習(xí)scrapy是一個必不可少的環(huán)節(jié)。也許有好多朋友此時此刻也正在接觸并學(xué)習(xí)sc...

    pkhope 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<