成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

SparkStreaming概述

Tecode / 2021人閱讀

摘要:但在企業(yè)中存在很多實(shí)時(shí)性處理的需求,例如雙十一的京東阿里,通常會(huì)做一個(gè)實(shí)時(shí)的數(shù)據(jù)大屏,顯示實(shí)時(shí)訂單。這種情況下,對(duì)數(shù)據(jù)實(shí)時(shí)性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。

1 Spark Streaming是什么
它是一個(gè)可擴(kuò)展,高吞吐具有容錯(cuò)性的流式計(jì)算框架

吞吐量:單位時(shí)間內(nèi)成功傳輸數(shù)據(jù)的數(shù)量

之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務(wù),數(shù)據(jù)一般都是在固定位置上,通常我們寫好一個(gè)腳本,每天定時(shí)去處理數(shù)據(jù),計(jì)算,保存數(shù)據(jù)結(jié)果。這類任務(wù)通常是T+1(一天一個(gè)任務(wù)),對(duì)實(shí)時(shí)性要求不高。
image.png

但在企業(yè)中存在很多實(shí)時(shí)性處理的需求,例如:雙十一的京東阿里,通常會(huì)做一個(gè)實(shí)時(shí)的數(shù)據(jù)大屏,顯示實(shí)時(shí)訂單。這種情況下,對(duì)數(shù)據(jù)實(shí)時(shí)性要求較高,僅僅能夠容忍到延遲1分鐘或幾秒鐘。

image.png
實(shí)時(shí)計(jì)算框架對(duì)比

Storm

  • 流式計(jì)算框架
  • 以record為單位處理數(shù)據(jù)
  • 也支持micro-batch方式(Trident)

Spark

  • 批處理計(jì)算框架
  • 以RDD為單位處理數(shù)據(jù)
  • 支持micro-batch流式處理數(shù)據(jù)(Spark Streaming)

對(duì)比:

  • 吞吐量:Spark Streaming優(yōu)于Storm
  • 延遲:Spark Streaming差于Storm

2 Spark Streaming的組件
Streaming Context

  • 一旦一個(gè)Context已經(jīng)啟動(dòng)(調(diào)用了Streaming Context的start())就不能有新的流算子(Dstream)建立或者是添加到context中
  • 一旦一個(gè)context已經(jīng)停止不能重新啟動(dòng)(Streaming Context調(diào)用了stop方法之后 就不能再次調(diào) start())
  • 在JVM(java虛擬機(jī))中 同一時(shí)間只能有一個(gè)Streaming Context處于活躍狀態(tài) 一個(gè)SparkContext創(chuàng)建一個(gè)Streaming Context
  • 在Streaming Context上調(diào)用Stop方法 也會(huì)關(guān)閉SparkContext對(duì)象 如果只想僅關(guān)閉Streaming Context對(duì)象設(shè)置stop()的可選參數(shù)為false
  • 一個(gè)SparkContext對(duì)象可以重復(fù)利用去創(chuàng)建多個(gè)Streaming Context對(duì)象(不關(guān)閉SparkContext前提下) 但是需要關(guān)一個(gè)再開下一個(gè)

DStream (離散流)

  • 代表一個(gè)連續(xù)的數(shù)據(jù)流
  • 在內(nèi)部 DStream由一系列連續(xù)的RDD組成
  • DStreams中的每個(gè)RDD都包含確定時(shí)間間隔內(nèi)的數(shù)據(jù)
  • 任何對(duì)DStreams的操作都轉(zhuǎn)換成了對(duì)DStreams隱含的RDD的操作
  • 數(shù)據(jù)源

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/126030.html

相關(guān)文章

  • 大數(shù)據(jù)分析技術(shù)與應(yīng)用

    摘要:人工智能四常用大數(shù)據(jù)分析技術(shù)常見的大數(shù)據(jù)分析技術(shù)主要由以下幾部分構(gòu)成分布式的文件系統(tǒng)存儲(chǔ)海量的非結(jié)構(gòu)化數(shù)據(jù)例如等分布式的離線計(jì)算系統(tǒng),對(duì)業(yè)務(wù)數(shù)據(jù)批量處理。 CDA數(shù)據(jù)分析研究院原創(chuàng)作品 一、大數(shù)據(jù)概念 大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信...

    shinezejian 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<