摘要:但在企業(yè)中存在很多實(shí)時(shí)性處理的需求,例如雙十一的京東阿里,通常會(huì)做一個(gè)實(shí)時(shí)的數(shù)據(jù)大屏,顯示實(shí)時(shí)訂單。這種情況下,對(duì)數(shù)據(jù)實(shí)時(shí)性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。
1 Spark Streaming是什么
它是一個(gè)可擴(kuò)展,高吞吐具有容錯(cuò)性的流式計(jì)算框架
吞吐量:單位時(shí)間內(nèi)成功傳輸數(shù)據(jù)的數(shù)量
之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務(wù),數(shù)據(jù)一般都是在固定位置上,通常我們寫好一個(gè)腳本,每天定時(shí)去處理數(shù)據(jù),計(jì)算,保存數(shù)據(jù)結(jié)果。這類任務(wù)通常是T+1(一天一個(gè)任務(wù)),對(duì)實(shí)時(shí)性要求不高。
但在企業(yè)中存在很多實(shí)時(shí)性處理的需求,例如:雙十一的京東阿里,通常會(huì)做一個(gè)實(shí)時(shí)的數(shù)據(jù)大屏,顯示實(shí)時(shí)訂單。這種情況下,對(duì)數(shù)據(jù)實(shí)時(shí)性要求較高,僅僅能夠容忍到延遲1分鐘或幾秒鐘。
實(shí)時(shí)計(jì)算框架對(duì)比
Storm
Spark
對(duì)比:
2 Spark Streaming的組件
Streaming Context
DStream (離散流)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/126030.html
摘要:人工智能四常用大數(shù)據(jù)分析技術(shù)常見的大數(shù)據(jù)分析技術(shù)主要由以下幾部分構(gòu)成分布式的文件系統(tǒng)存儲(chǔ)海量的非結(jié)構(gòu)化數(shù)據(jù)例如等分布式的離線計(jì)算系統(tǒng),對(duì)業(yè)務(wù)數(shù)據(jù)批量處理。 CDA數(shù)據(jù)分析研究院原創(chuàng)作品 一、大數(shù)據(jù)概念 大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信...
閱讀 3546·2023-04-25 20:09
閱讀 3745·2022-06-28 19:00
閱讀 3066·2022-06-28 19:00
閱讀 3092·2022-06-28 19:00
閱讀 3185·2022-06-28 19:00
閱讀 2886·2022-06-28 19:00
閱讀 3057·2022-06-28 19:00
閱讀 2644·2022-06-28 19:00