spark Dstreams-基本內(nèi)容

IT那活兒發(fā)布于2023-01-11 13:20 / 1498人閱讀

點擊上方“IT那活兒”，關(guān)注后了解更多內(nèi)容，不管IT什么活兒，干就完了?。?！

簡介

Spark Streaming是spark core的延伸，支持實時數(shù)據(jù)流的可伸縮、高吞吐量、容錯機制，支持的數(shù)據(jù)源有kafka、Kinesis、TCP等），且可以使用復(fù)雜的算法（map,reduce,join,window等）處理數(shù)據(jù)，最后可以將處理后的數(shù)據(jù)推送到文件系統(tǒng)、數(shù)據(jù)庫或儀表盤。（如下圖，您也可以再數(shù)據(jù)流上應(yīng)用spark的機器學(xué)習(xí)和圖形算法。）

01

在內(nèi)部，spark streaming接受實時數(shù)據(jù)流并且將數(shù)據(jù)流切割成一個個的小批次，然后由spark引擎進(jìn)行處理，以批量生成最終結(jié)果流。

Spark streaming提供一個高級抽象叫做離散化數(shù)據(jù)流Dstreams，他代表一個連續(xù)的數(shù)據(jù)流，可以從kafka，kinesis等源輸入創(chuàng)建數(shù)據(jù)流，也可以通過對其他數(shù)據(jù)流應(yīng)用高級操作來創(chuàng)建數(shù)據(jù)流。

在內(nèi)部，一個Dstreams代表一系列的RDD。

02

具體步驟：

批處理間隔必須根據(jù)應(yīng)用程序和可用集群資源進(jìn)行設(shè)置，ssc也可以通過SparkContext創(chuàng)建：

val ssc = new StreamingContext(sc, Seconds(1))

創(chuàng)建ssc之后，按照下面步驟進(jìn)行：

通過輸入數(shù)據(jù)源創(chuàng)建Dstreams。
對數(shù)據(jù)流進(jìn)行轉(zhuǎn)換和輸出操作。
使用ssc.start()啟動應(yīng)用程序。
使用ssc.awaitTermination()等待停止處理。（手動或由于任何錯誤）
使用ssc.stop()手動停止應(yīng)用程序。

舉例演示：

使用spark-streaming前提是添加依賴：

如果數(shù)據(jù)源為kafka，由于spark core中無kafka依賴，需要額外添加依賴：

StreamingContext是流功能的入口，我們創(chuàng)建一個本地StreamingContext，兩個執(zhí)行線程，批處理間隔為1秒。

val conf = new SparkConf().setMaster("local[2]").setAppName("Dstreams")

master是spark,Mesos,Kubernetes，或者YARN集群URL，或者本地模式運行的特殊local[*]字符串。

實際上，在集群上運行時，你不希望在程序中寫死m(xù)aster，而是在使用spark-submit啟動應(yīng)用程序時在那里接收master。

03

離散化數(shù)據(jù)流（Dstreams）

Dstreams是spark streaming提供的基本抽象，它代表一個連續(xù)的數(shù)據(jù)流，不管是輸入源創(chuàng)建的Dsteam還是通過轉(zhuǎn)換生成的輸入流，在內(nèi)部Dstream代表一系列連續(xù)的RDD，每個RDD都是特定時間間隔的數(shù)據(jù)。

應(yīng)用于數(shù)據(jù)流的任何操作都轉(zhuǎn)化為底層RDD的操作，例如在之前的例子中，對用數(shù)據(jù)流中每個RDD應(yīng)用flatMap操作，如圖：

這些底層RDD轉(zhuǎn)換由spark引擎計算，Dstream操作隱藏了大部分這些細(xì)節(jié)，并為開發(fā)人員提供了更高級別的API。

04

輸入數(shù)據(jù)流（Input Dstreams）表示從源接受的輸入數(shù)據(jù)流。

在上面的例子中，lines就是輸入數(shù)據(jù)流（Input DStreams），代表從TCP socket接收的數(shù)據(jù)。

每個輸入數(shù)據(jù)流（Input DStreams）除了文件流都與接收器對象關(guān)聯(lián)，該對象從源接受的數(shù)據(jù)并將其在spark的內(nèi)存中進(jìn)行處理。

Spark streaming提供兩類內(nèi)置streaming源：

基本source：在StreamingContext中可以直接用的基本source，像file source，socket source。
高級source：像kafka，Kinesis等，需要添加額外依賴。

注意：

一旦StreamingContext啟動，就不能設(shè)置或添加新的流計算。
StreamingContext一旦停止就不能重啟。
一個JVM中只能同時只能有一個StreamingContext，ssc.stop()也會停止SparkContext，如果僅停止streamingContext，需要ssc.stop(false)。
只要在創(chuàng)建下一個StreamingContext之前停止上一個StreamingContext而不停止SparkContext，就可以重新用于創(chuàng)建StreamingContetx。
如果希望在應(yīng)用程序中并行接受多個數(shù)據(jù)流，則可以創(chuàng)建多個輸入數(shù)據(jù)流，這將同時創(chuàng)建接受多個輸入數(shù)據(jù)流的多個接收器，Spark worker/executor是一個長期運行的任務(wù)，因此它占用分配給Spark流應(yīng)用程序的一個核心。
因此，務(wù)必記住，Spark Streaming應(yīng)用程序需要分配足夠的內(nèi)核（或線程，如果在本地運行）來處理接收到的數(shù)據(jù)，以及運行接收器。
在本地運行spark streaming應(yīng)用程序時，不要將master設(shè)置成local[1]或local，這兩種情況意味著只有一個線程用于本地運行任務(wù)，如果您使用的是基于接收器的輸入數(shù)據(jù)流（例如套接字，kafka等），則使用單個線程運行接收器，就沒有其他線程處理數(shù)據(jù)了。
在集群上運行時，分配給spark streaming應(yīng)用程序的內(nèi)核數(shù)必須大于接收器數(shù)，否則應(yīng)用只能接受數(shù)據(jù)而無法處理數(shù)據(jù)。

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團(tuán)隊）

GPU云服務(wù)器云服務(wù)器大數(shù)據(jù)基本內(nèi)容大數(shù)據(jù)的基本內(nèi)容人工智能的基本內(nèi)容電子商務(wù)解決方案的基本內(nèi)容

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/129640.html

發(fā)表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關(guān)注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1356·2023-01-11 13:20
RAC雙節(jié)點crash回復(fù)一例

閱讀 1707·2023-01-11 13:20
ORA-600處理一例

閱讀 1215·2023-01-11 13:20
雙節(jié)點RAC實例2 HANG 故障分析一例

閱讀 1906·2023-01-11 13:20
RAC集群節(jié)點1重啟分析一例

閱讀 4165·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2757·2023-01-11 13:20
oracle 12CR2打補丁報錯處理一例

閱讀 1402·2023-01-11 13:20
分布式緩存組件故障分析及監(jiān)控優(yōu)化

閱讀 3671·2023-01-11 13:20

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

spark Dstreams-基本內(nèi)容

點擊上方“IT那活兒”，關(guān)注后了解更多內(nèi)容，不管IT什么活兒，干就完了?。?！

01

02

03

離散化數(shù)據(jù)流（Dstreams）

04

注意：

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團(tuán)隊）

相關(guān)文章

SparkStreaming概述

Spark Streaming學(xué)習(xí)筆記

大數(shù)據(jù)入門指南（GitHub開源項目）

**『 Spark 』2. spark 基本概念解析**

發(fā)表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節(jié)點crash回復(fù)一例

ORA-600處理一例

雙節(jié)點RAC實例2 HANG 故障分析一例

RAC集群節(jié)點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監(jiān)控優(yōu)化

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

spark Dstreams-基本內(nèi)容

點擊上方“IT那活兒”，關(guān)注后了解更多內(nèi)容，不管IT什么活兒，干就完了?。?！

01

02

03

離散化數(shù)據(jù)流（Dstreams）

04

注意：

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團(tuán)隊）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

點擊上方“IT那活兒”，關(guān)注后了解更多內(nèi)容，不管IT什么活兒，干就完了?。?！