SparkStreaming概述

Tecode 發(fā)布于2022-06-28 18:59 / 2021人閱讀

摘要：但在企業(yè)中存在很多實(shí)時(shí)性處理的需求，例如雙十一的京東阿里，通常會(huì)做一個(gè)實(shí)時(shí)的數(shù)據(jù)大屏，顯示實(shí)時(shí)訂單。這種情況下，對(duì)數(shù)據(jù)實(shí)時(shí)性要求較高，僅僅能夠容忍到延遲分鐘或幾秒鐘。

1 Spark Streaming是什么
它是一個(gè)可擴(kuò)展，高吞吐具有容錯(cuò)性的流式計(jì)算框架

吞吐量：單位時(shí)間內(nèi)成功傳輸數(shù)據(jù)的數(shù)量

之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務(wù)，數(shù)據(jù)一般都是在固定位置上，通常我們寫好一個(gè)腳本，每天定時(shí)去處理數(shù)據(jù)，計(jì)算，保存數(shù)據(jù)結(jié)果。這類任務(wù)通常是T+1(一天一個(gè)任務(wù))，對(duì)實(shí)時(shí)性要求不高。

但在企業(yè)中存在很多實(shí)時(shí)性處理的需求，例如：雙十一的京東阿里，通常會(huì)做一個(gè)實(shí)時(shí)的數(shù)據(jù)大屏，顯示實(shí)時(shí)訂單。這種情況下，對(duì)數(shù)據(jù)實(shí)時(shí)性要求較高，僅僅能夠容忍到延遲1分鐘或幾秒鐘。

實(shí)時(shí)計(jì)算框架對(duì)比

Storm

流式計(jì)算框架
以record為單位處理數(shù)據(jù)
也支持micro-batch方式（Trident）

Spark

批處理計(jì)算框架
以RDD為單位處理數(shù)據(jù)
支持micro-batch流式處理數(shù)據(jù)（Spark Streaming）

對(duì)比：

吞吐量：Spark Streaming優(yōu)于Storm
延遲：Spark Streaming差于Storm

2 Spark Streaming的組件
Streaming Context

一旦一個(gè)Context已經(jīng)啟動(dòng)(調(diào)用了Streaming Context的start())就不能有新的流算子(Dstream)建立或者是添加到context中
一旦一個(gè)context已經(jīng)停止不能重新啟動(dòng)(Streaming Context調(diào)用了stop方法之后就不能再次調(diào) start())
在JVM(java虛擬機(jī))中同一時(shí)間只能有一個(gè)Streaming Context處于活躍狀態(tài) 一個(gè)SparkContext創(chuàng)建一個(gè)Streaming Context
在Streaming Context上調(diào)用Stop方法也會(huì)關(guān)閉SparkContext對(duì)象如果只想僅關(guān)閉Streaming Context對(duì)象設(shè)置stop()的可選參數(shù)為false
一個(gè)SparkContext對(duì)象可以重復(fù)利用去創(chuàng)建多個(gè)Streaming Context對(duì)象(不關(guān)閉SparkContext前提下) 但是需要關(guān)一個(gè)再開下一個(gè)

DStream (離散流)

代表一個(gè)連續(xù)的數(shù)據(jù)流
在內(nèi)部 DStream由一系列連續(xù)的RDD組成
DStreams中的每個(gè)RDD都包含確定時(shí)間間隔內(nèi)的數(shù)據(jù)
任何對(duì)DStreams的操作都轉(zhuǎn)換成了對(duì)DStreams隱含的RDD的操作
數(shù)據(jù)源

GPU云服務(wù)器云服務(wù)器 sparkstreaming 分詞概述概述流程概述

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/126030.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Tecode

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow指定cpu

閱讀 3546·2023-04-25 20:09
香港云服務(wù)器這幾天網(wǎng)絡(luò)有沒有丟包嚴(yán)重

閱讀 3745·2022-06-28 19:00
EPC單機(jī)掛載UHOST-RSSD高速磁盤

閱讀 3066·2022-06-28 19:00
GPU活動(dòng)使用TIPS

閱讀 3092·2022-06-28 19:00
為科研量身定制，UCloud推出“云極”高性能計(jì)算EPC

閱讀 3185·2022-06-28 19:00
UCloud 2021年終特惠已開啟，快杰O型ARM服務(wù)器上海節(jié)點(diǎn)重磅上線！

閱讀 2886·2022-06-28 19:00
“懂運(yùn)維、精運(yùn)營、重服務(wù)” UCloud發(fā)布混合云多云管理平臺(tái)UCMP

閱讀 3057·2022-06-28 19:00
軟件定義存儲(chǔ) ，UCloudStor存儲(chǔ)?體機(jī)強(qiáng)勢(shì)登場

閱讀 2644·2022-06-28 19:00

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

SparkStreaming概述

相關(guān)文章

大數(shù)據(jù)分析技術(shù)與應(yīng)用

發(fā)表評(píng)論

0條評(píng)論

Tecode

男|高級(jí)講師

TA的文章

tensorflow指定cpu

香港云服務(wù)器這幾天網(wǎng)絡(luò)有沒有丟包嚴(yán)重

EPC單機(jī)掛載UHOST-RSSD高速磁盤

GPU活動(dòng)使用TIPS

為科研量身定制，UCloud推出“云極”高性能計(jì)算EPC

UCloud 2021年終特惠已開啟，快杰O型ARM服務(wù)器上海節(jié)點(diǎn)重磅上線！

“懂運(yùn)維、精運(yùn)營、重服務(wù)” UCloud發(fā)布混合云多云管理平臺(tái)UCMP

軟件定義存儲(chǔ) ，UCloudStor存儲(chǔ)?體機(jī)強(qiáng)勢(shì)登場

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

SparkStreaming概述

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！