hadoop任務(wù)，給定數(shù)據(jù)量和處理邏輯（Sql、UDF等），如何預(yù)估計(jì)算時(shí)間與資源？有沒有實(shí)際案例？

silenceboy 2022-06-28 15:02 回答0 收藏1

收藏問題

1條回答

fireflow

回答于2022-06-28 15:02

首先明確下定義：計(jì)算時(shí)間是指計(jì)算機(jī)實(shí)際執(zhí)行的時(shí)間，不是人等待的時(shí)間，因?yàn)榈却龝r(shí)間依賴于有多少資源可以調(diào)度。

首先我們不考慮資源問題，討論時(shí)間的預(yù)估。執(zhí)行時(shí)間依賴于執(zhí)行引擎是 Spark 還是 MapReduce。

Spark 任務(wù)

Spark 任務(wù)的總執(zhí)行時(shí)間可以看 Spark UI，以下圖為例

Spark 任務(wù)是分多個(gè) Physical Stage 執(zhí)行的，每個(gè)stage下有很多個(gè)task，task 的時(shí)間也有大致的預(yù)估，如下圖

Task 個(gè)數(shù)依賴于 Hive 表的文件數(shù)，每個(gè)task的執(zhí)行時(shí)間依賴于 UDF是怎么實(shí)現(xiàn)的，需要具體問題具體分析。

MapReduce 任務(wù)

MapReduce 任務(wù)的執(zhí)行時(shí)間，也需要參考 hadoop web ui

整體執(zhí)行時(shí)間 = map_time * map_number + reduce_time * reduce_number；

map 個(gè)數(shù)一般情況下是 hive 表的分區(qū)數(shù)；

map 執(zhí)行時(shí)間取決于每個(gè)分區(qū)里的數(shù)據(jù)量和 udf 的邏輯；

不管是 Spark 還是 MapReduce，計(jì)算時(shí)間都依賴于：

數(shù)據(jù)源分區(qū)數(shù)
每個(gè)分區(qū)里的文件數(shù)
每個(gè)文件的大小
udf 邏輯
sql 邏輯（group by、filter、distinct count）

實(shí)際場(chǎng)景下資源是有限的，我們也不關(guān)心計(jì)算時(shí)間，反而是更關(guān)心一個(gè)數(shù)據(jù)集需要多久能處理完，比如一個(gè)1T的Hive表大概需要幾個(gè)小時(shí)跑完MapReduce。這時(shí)候我們需要做實(shí)驗(yàn)，觀察一個(gè)分區(qū)大概需要多久跑完，數(shù)據(jù)有沒有 skew，從經(jīng)驗(yàn)上給出一個(gè)合理的時(shí)間，進(jìn)而保證任務(wù)交付。

評(píng)論0 贊同0

加載中...

相關(guān)問題

0
回答

hadoop任務(wù)，給定數(shù)據(jù)量和處理邏輯（Sql、UDF等），如何預(yù)估計(jì)算時(shí)間與資源？有沒有實(shí)際案例？

silenceboy 2022-06-28 15:02 1074人閱讀
0
回答

搭建私有云平臺(tái)：Hadoop還是選擇OpenStack？

MonoLog 2022-06-28 17:34 1074人閱讀
0
回答

Mysql數(shù)據(jù)庫(kù)如何使用Sql計(jì)算兩個(gè)時(shí)間的間隔時(shí)間？

happyfish 2022-06-28 13:50 940人閱讀
0
回答

sql server、my sql、oracle與hadoop，哪個(gè)才是未來趨勢(shì)？到底有什么區(qū)別？

caoym 2022-06-28 13:59 1055人閱讀
0
回答

為什么SQL處理數(shù)據(jù)比Java快？

stefanieliang 2022-06-28 13:54 2113人閱讀
0
回答

為什么不能在前端連接數(shù)據(jù)庫(kù)呢？

zone 2022-06-28 14:14 1193人閱讀
0
回答

互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、人工智能等將會(huì)如何改變我們的生活？

546669204 2022-06-28 18:03 1529人閱讀
0
回答

學(xué)習(xí)SQL大概需要多長(zhǎng)時(shí)間呢？

趙春朋 2022-06-28 13:43 1134人閱讀
0
回答

如何計(jì)算服務(wù)器實(shí)際帶寬

陸斌 2022-06-15 15:27 764人閱讀
1
回答

python中列表，元組等數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)庫(kù)的區(qū)別？

zhou_you 2022-06-22 19:09 1068人閱讀

云數(shù)據(jù)庫(kù)MySQL 云服務(wù)器資源如何預(yù)估數(shù)據(jù)分析實(shí)際案例數(shù)據(jù)分析實(shí)際案例分析云計(jì)算與數(shù)據(jù)處理

這樣搜索試試？去問U認(rèn)證專家

silenceboy

男|

我要關(guān)注我要私信

TA的文章

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

問答專欄Q & A COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！