如何避免HBase寫入過快引起的各種問題

zlyBear 發(fā)布于2019-08-15 15:10 / 3187人閱讀

摘要：最后由負(fù)責(zé)處理的取出請求完成寫入操作。當(dāng)寫入過快時(shí)會遇見什么問題寫入過快時(shí)，的水位會馬上被推高。如何避免一種是加快速度當(dāng)達(dá)到配置上限時(shí)，會導(dǎo)致阻塞等到工作完成。通過這個(gè)可以防止寫入過快時(shí)候把端寫爆，有一定反壓作用。

首先我們簡單回顧下整個(gè)寫入流程

client api ==> RPC ==>  server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to  filesystem

整個(gè)寫入流程從客戶端調(diào)用API開始，數(shù)據(jù)會通過protobuf編碼成一個(gè)請求，通過scoket實(shí)現(xiàn)的IPC模塊被送達(dá)server的RPC隊(duì)列中。最后由負(fù)責(zé)處理RPC的handler取出請求完成寫入操作。寫入會先寫WAL文件，然后再寫一份到內(nèi)存中，也就是memstore模塊，當(dāng)滿足條件時(shí)，memstore才會被flush到底層文件系統(tǒng)，形成HFile。

當(dāng)寫入過快時(shí)會遇見什么問題？

寫入過快時(shí)，memstore的水位會馬上被推高。
你可能會看到以下類似日志：

RegionTooBusyException: Above memstore limit, regionName=xxxxx ...

這個(gè)是Region的memstore占用內(nèi)存大小超過正常的4倍，這時(shí)候會拋異常，寫入請求會被拒絕，客戶端開始重試請求。當(dāng)達(dá)到128M的時(shí)候會觸發(fā)flush memstore，當(dāng)達(dá)到128M * 4還沒法觸發(fā)flush時(shí)候會拋異常來拒絕寫入。兩個(gè)相關(guān)參數(shù)的默認(rèn)值如下：

hbase.hregion.memstore.flush.size=128M
hbase.hregion.memstore.block.multiplier=4

或者這樣的日志：

regionserver.MemStoreFlusher: Blocking updates on hbase.example.host.com,16020,1522286703886: the global memstore size 1.3 G is >= than blocking 1.3 G size
regionserver.MemStoreFlusher: Memstore is above high water mark and block 528ms

這是所有region的memstore內(nèi)存總和開銷超過配置上限，默認(rèn)是配置heap的40%，這會導(dǎo)致寫入被阻塞。目的是等待flush的線程把內(nèi)存里的數(shù)據(jù)flush下去，否則繼續(xù)允許寫入memestore會把內(nèi)存寫爆

hbase.regionserver.global.memstore.upperLimit=0.4  # 較舊版本，新版本兼容
hbase.regionserver.global.memstore.size=0.4 # 新版本

當(dāng)寫入被阻塞，隊(duì)列會開始積壓，如果運(yùn)氣不好最后會導(dǎo)致OOM，你可能會發(fā)現(xiàn)JVM由于OOM crash或者看到如下類似日志：

ipc.RpcServer: /192.168.x.x:16020 is unable to read call parameter from client 10.47.x.x
java.lang.OutOfMemoryError: Java heap space

HBase這里我認(rèn)為有個(gè)很不好的設(shè)計(jì)，捕獲了OOM異常卻沒有終止進(jìn)程。這時(shí)候進(jìn)程可能已經(jīng)沒法正常運(yùn)行下去了，你還會在日志里發(fā)現(xiàn)很多其它線程也拋OOM異常。比如stop可能根本stop不了，RS可能會處于一種僵死狀態(tài)。

如何避免RS OOM？

一種是加快flush速度：

hbase.hstore.blockingWaitTime = 90000 ms
hbase.hstore.flusher.count = 2
hbase.hstore.blockingStoreFiles = 10

當(dāng)達(dá)到hbase.hstore.blockingStoreFiles配置上限時(shí)，會導(dǎo)致flush阻塞等到compaction工作完成。阻塞時(shí)間是hbase.hstore.blockingWaitTime，可以改小這個(gè)時(shí)間。hbase.hstore.flusher.count可以根據(jù)機(jī)器型號去配置，可惜這個(gè)數(shù)量不會根據(jù)寫壓力去動態(tài)調(diào)整，配多了，非導(dǎo)入數(shù)據(jù)多場景也沒用，改配置還得重啟。

同樣的道理，如果flush加快，意味這compaction也要跟上，不然文件會越來越多，這樣scan性能會下降，開銷也會增大。

hbase.regionserver.thread.compaction.small = 1
hbase.regionserver.thread.compaction.large = 1

增加compaction線程會增加CPU和帶寬開銷，可能會影響正常的請求。如果不是導(dǎo)入數(shù)據(jù)，一般而言是夠了。好在這個(gè)配置在云HBase內(nèi)是可以動態(tài)調(diào)整的，不需要重啟。

上述配置都需要人工干預(yù)，如果干預(yù)不及時(shí)server可能已經(jīng)OOM了，這時(shí)候有沒有更好的控制方法？

hbase.ipc.server.max.callqueue.size = 1024 * 1024 * 1024 # 1G

直接限制隊(duì)列堆積的大小。當(dāng)堆積到一定程度后，事實(shí)上后面的請求等不到server端處理完，可能客戶端先超時(shí)了。并且一直堆積下去會導(dǎo)致OOM，1G的默認(rèn)配置需要相對大內(nèi)存的型號。當(dāng)達(dá)到queue上限，客戶端會收到CallQueueTooBigException 然后自動重試。通過這個(gè)可以防止寫入過快時(shí)候把server端寫爆，有一定反壓作用。線上使用這個(gè)在一些小型號穩(wěn)定性控制上效果不錯(cuò)。

詳情請閱讀原文

云服務(wù)器 GPU云服務(wù)器 hbase的rowkey問題 hbase寫入騰訊云服務(wù)器各種問題 hbase寫入數(shù)據(jù)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/68901.html

發(fā)表評論

登陸后可評論

0條評論

zlyBear

男|高級講師

我要關(guān)注我要私信

TA的文章

Python【賦值語句】專講，可不能只會 a=b 啊！建議掌握！

閱讀 2559·2021-10-09 09:44
前端面試每日3+1——第103天

閱讀 650·2019-08-30 15:44
重學(xué)前端學(xué)習(xí)筆記（六）--JavaScript類型有哪些你不知道的細(xì)節(jié)？

閱讀 3010·2019-08-29 18:46
關(guān)于程序員寫好 ppt 的幾點(diǎn)總結(jié) - 前端張大胖

閱讀 1146·2019-08-29 18:38
第一次構(gòu)建react前端項(xiàng)目

閱讀 569·2019-08-26 10:44
Vue+Vue-router+Vuex項(xiàng)目實(shí)戰(zhàn)

閱讀 2446·2019-08-23 16:07
學(xué)習(xí) PixiJS — 交互工具

閱讀 1107·2019-08-23 15:38
Cesium的3D在多個(gè)單頁面應(yīng)用中,內(nèi)存只增不減致內(nèi)存溢出問題的解決

閱讀 4150·2019-08-23 14:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

如何避免HBase寫入過快引起的各種問題

相關(guān)文章