成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

spark?Dstreams-緩存及持久性存儲

IT那活兒 / 1298人閱讀
spark?Dstreams-緩存及持久性存儲

點擊上方“IT那活兒”,關注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。?!

簡  介
與RDD類似,DStreams也允許開發(fā)者將其持久化存儲到內(nèi)存中,也就是說對DStream使用persist()方法將自動在內(nèi)存中持久化數(shù)據(jù)流的每個RDD,這對于需要多次計算的數(shù)據(jù)流中的數(shù)據(jù)將是非常有用的。


Caching/Persistence


對于基于窗口的操作(例如reduceByWindow和reduceByKeyAndWindow)和基于狀態(tài)操作(例如updateStateByKey)是隱式的,因此基于窗口操作和基于狀態(tài)操作將自動持久化到內(nèi)存中,所以無需開發(fā)人員顯示調(diào)用persist()方法。

其他操作是需要開發(fā)人員顯示指定調(diào)用persist()方法進行數(shù)據(jù)集持久化。

通過網(wǎng)絡接收數(shù)據(jù)的輸入流(例如kafka,socket等)默認的存儲級別設置是將數(shù)據(jù)復制到兩個節(jié)點以實現(xiàn)容錯。

請注意,與RDD不同的是數(shù)據(jù)流的默認持久性存儲級別在內(nèi)存中保持序列化。


Checkpointing


一個streaming的應用程序是7*24小時運行的,因此必須能夠適應與程序邏輯無關的故障(例如系統(tǒng)故障,JVM崩潰等)。
為了實現(xiàn)這一點,spark stremaing必須設置足夠檢查點以便他能夠從故障中恢復,檢查點有兩種類型數(shù)據(jù):
1. metadata checkpointing將定義流計算的信息保存到容錯存儲(如HDFS)。
這用于從運行流應用程序驅動程序的節(jié)點的故障中恢復(稍后將詳細討論)。
元數(shù)據(jù)包括:
  • configuration:用于創(chuàng)建流式處理應用程序的配置。
  • DStream operations:定義流應用程序的一組數(shù)據(jù)流操作。
  • Incomplete batchs:已排隊但尚未完成的批處理。
2. Data checkpointing:將生成的RDD保存到可靠的存儲中。
在一些跨多個批處理組合數(shù)據(jù)的有狀態(tài)轉換中,這是必需的。在這種轉換中,生成的RDD依賴于以前批處理的RDD,這導致依賴鏈的長度隨著時間的推移而不斷增加。
為了避免恢復時間的無限增長(與依賴鏈成比例),有狀態(tài)轉換的中間RDD定期檢查到可靠存儲(例如HDF),以切斷依賴鏈。
總之,元數(shù)據(jù)檢查點主要是為了可以從驅動程序故障中進行恢復,而數(shù)據(jù)檢查點對于有使用狀態(tài)轉換的基本功能也是必需的。

何時啟用檢查點(checkpointing)

必須為具有以下任何要求的應用程序啟用檢查點:
1. 有狀態(tài)轉換的使用:
如果應用程序中使用了updateStateByKey或ReduceByAndWindow(帶反向函數(shù)),則必須提供檢查點目錄以允許定期RDD檢查點。
2. 從運行應用程序的驅動程序的故障中恢復:
元數(shù)據(jù)檢查點用于使用進度信息進行恢復。
請注意,沒有上述有狀態(tài)轉換的簡單流應用程序可以在不啟用檢查點的情況下運行。
在這種情況下,驅動程序故障的恢復也將是部分的(一些已接收但未處理的數(shù)據(jù)可能會丟失),這通常是可以接受的,許多應用程序以這種方式運行Spark流媒體應用程序,對非Hadoop環(huán)境的支持有望在未來得到改善。

如何配置使用檢查點

可以通過在容錯目錄中設置目錄來啟用檢查點,檢查點信息將保存在可靠的文件系統(tǒng)(例如HDFS,S3等),通過使用streamingContext.checkpoint(checkpoint dir)完成,這將允許您使用前面提到的有狀態(tài)轉換。
此外,如果要使應用程序從驅動程序故障中恢復,則應重寫流應用程序,使其具有以下行為:
1. 當程序第一次啟動時,它將創(chuàng)建一個新的StreamingContext,然后調(diào)用start()。
2. 當程序在失敗后重新啟動時,它將從檢查點目錄中的檢查點數(shù)據(jù)重新創(chuàng)建StreamingContext。
使用StreamingContext.getOrCreate可以簡化此行為。其用途如下:
如果檢查點目錄存在,則將從檢查點數(shù)據(jù)重新創(chuàng)建上下文。如果目錄不存在(即,第一次運行),則將調(diào)用函數(shù)functionToCreateContext來創(chuàng)建新的上下文并設置數(shù)據(jù)流。
除了使用getOrCreate,還需要確保驅動程序進程在出現(xiàn)故障時自動重新啟動。這只能由用于運行應用程序的部署基礎結構來完成。這將在部署一節(jié)中進一步討論。
請注意,RDD的檢查點會導致節(jié)省到可靠存儲的成本。這可能會導致RDD檢查點所在批次的處理時間增加。
因此,需要仔細設置檢查點的間隔。在小批量(比如1秒)情況下,檢查每個批次可能會顯著降低操作吞吐量。相反,檢查點設置太少會導致譜系和任務大小增加,這可能會產(chǎn)生有害影響。
對于需要RDD檢查點的有狀態(tài)轉換,默認間隔是批處理間隔的倍數(shù),至少為10秒??梢允褂胐stream.checkpoint(checkpointInterval)設置它。
通常,檢查點間隔為數(shù)據(jù)流的5-10個滑動間隔是一個很好的設置。無法從Spark Streaming中的檢查點恢復累加器和廣播變量。
如果啟用檢查點并同時使用累加器或廣播變量,則必須為累加器和廣播變量創(chuàng)建延遲實例化的單例實例,以便在驅動程序失敗時重新啟動后重新實例化它們。例如:

persist和 checkpoint 之間的區(qū)別


persist()可以將 RDD 的 partition 持久化到磁盤,但該 partition 由 blockManager 管理。
一旦 driver program 執(zhí)行結束,也就是 executor 所在進程 CoarseGrainedExecutorBackend stop,blockManager 也會 stop,被 cache 到磁盤上的 RDD 也會被清空(整個 blockManager 使用的 local 文件夾被刪除)。
而 checkpoint 將 RDD 持久化到 HDFS 或本地文件夾,如果不被手動 remove 掉,是一直存在的。在實際使用中可以根據(jù)實際情況進行持久化方法的選擇。


本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團隊)

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/129641.html

相關文章

  • SparkStreaming概述

    摘要:但在企業(yè)中存在很多實時性處理的需求,例如雙十一的京東阿里,通常會做一個實時的數(shù)據(jù)大屏,顯示實時訂單。這種情況下,對數(shù)據(jù)實時性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。1 Spark Streaming是什么它是一個可擴展,高吞吐具有容錯性的流式計算框架吞吐量:單位時間內(nèi)成功傳輸數(shù)據(jù)的數(shù)量之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務,數(shù)據(jù)一般都是在固定位置上...

    Tecode 評論0 收藏0
  • Spark Streaming學習筆記

    摘要:輸入和接收器輸入代表從某種流式數(shù)據(jù)源流入的數(shù)據(jù)流。文件數(shù)據(jù)流可以從任何兼容包括等的文件系統(tǒng),創(chuàng)建方式如下將監(jiān)視該目錄,并處理該目錄下任何新建的文件目前還不支持嵌套目錄。會被一個個依次推入隊列,而則會依次以數(shù)據(jù)流形式處理這些的數(shù)據(jù)。 特點: Spark Streaming能夠實現(xiàn)對實時數(shù)據(jù)流的流式處理,并具有很好的可擴展性、高吞吐量和容錯性。 Spark Streaming支持從多種數(shù)...

    陸斌 評論0 收藏0
  • Spark Streaming遇到問題分析

    摘要:遇到問題分析之后搞了個還沒仔細了解可參考的與的有區(qū)別及并發(fā)控制先看看的,與的這幾個概念。一個可以認為就是會最終輸出一個結果的一條由組織而成的計算。在中,我們通過使用新極大地增強對狀態(tài)流處理的支持。 Spark Streaming遇到問題分析 1、Spark2.0之后搞了個Structured Streaming 還沒仔細了解,可參考:https://github.com/lw-lin/...

    stormzhang 評論0 收藏0
  • Leaf in the Wild: Stratio整合Apache和MongoDB為世界上最大的銀行

    摘要:以及大數(shù)據(jù)平臺都已經(jīng)進行了集成并且處于企業(yè)就緒狀態(tài)。因此,顧客避免浪費時間在安裝配置及監(jiān)控系統(tǒng)方面。注意防止數(shù)據(jù)頻繁移動。 本文源地址:http://www.mongoing.com/blog/post/leaf-in-the-wild-stratio-integrates-apache-spark-and-mongodb-to-unlock-new-customer-insights...

    BDEEFE 評論0 收藏0
  • PySpark SQL 相關知識介紹

    摘要:大數(shù)據(jù)除了體積和速度外,數(shù)據(jù)的多樣性和準確性也是大數(shù)據(jù)的一大特點。這些也被稱為大數(shù)據(jù)的特征。介紹是一個解決大數(shù)據(jù)問題的分布式可伸縮的框架。介紹計算的模型最早出現(xiàn)在谷歌的一篇研究論文中。相關鏈接介紹是一個通用的分布式編程框架。 本文作者:foochane?本文鏈接:https://foochane.cn/article/2019060601.html 1 大數(shù)據(jù)簡介 大數(shù)據(jù)是這個時代最...

    CoderStudy 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<