成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

數(shù)據(jù)庫hang故障分析

IT那活兒 / 2852人閱讀
數(shù)據(jù)庫hang故障分析
點擊上方“IT那活兒”公眾號,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。?!

故障簡述

1.1 知識點描述

應(yīng)用19.13PSU后,疑似觸發(fā)數(shù)據(jù)庫內(nèi)存Bug 32940955以及BUG 33415279、BUG 33225584,導(dǎo)致數(shù)據(jù)庫hang住。
1.2 問題處理簡述
中午11:43收到告警,數(shù)據(jù)庫節(jié)點1出現(xiàn)斷連告警,立即登入系統(tǒng)進行檢查,發(fā)現(xiàn)數(shù)據(jù)庫整個hang住,兩個節(jié)點實例均無法執(zhí)行查詢等操作。進一步檢查數(shù)據(jù)庫日志,發(fā)現(xiàn)頻繁報ORA-04031錯誤。
為了快速恢復(fù)業(yè)務(wù),嘗試進行殺會話,情況沒有明顯好轉(zhuǎn),12點15分經(jīng)客戶同意后停掉節(jié)點1的實例,隨后實例2恢復(fù)正常,并重新拉起節(jié)點1實例。
12:23左右,節(jié)點1再次出現(xiàn)嚴重性能問題,內(nèi)存資源不足,alert日志出現(xiàn)IO ERROR:無法打開磁盤,導(dǎo)致無法進行IO讀寫,節(jié)點1發(fā)生實例重啟,重啟后,性能問題未解決。

再次經(jīng)客戶同意后,在12點33分對節(jié)點1實例進行停止,隨后節(jié)點2恢復(fù)正常,在12:45嘗試手動拉起節(jié)點1實例,所有節(jié)點均恢復(fù)正常狀態(tài)。在13:26手動拉起節(jié)點1監(jiān)聽,至此所有節(jié)點均恢復(fù)正常訪問。


標(biāo)準指導(dǎo)操作

2.1 故障過程回溯分析
1)等待事件分析
事后回溯分析,發(fā)現(xiàn)節(jié)點1 在11:33左右突然出現(xiàn)大量library cache相關(guān)等待事件:
2)主機資源使用情況分析
查看osw,確認故障前主機資源正常。
3)應(yīng)用會話連接分析及相關(guān)時間點的等待事件記錄
11:33左右開始連到數(shù)據(jù)庫的應(yīng)用會話數(shù)明顯突增:
查看等待事件發(fā)現(xiàn)主要是latch: shared pool等待事件:
4)后臺日志記錄分析
查看DB ALERT日志發(fā)現(xiàn)大量ORA-4031報錯。
繼續(xù)查看db alert日志發(fā)現(xiàn)11:43:33開始pmon進程獲取latch一直失敗,12:15:17由于pmon進程掛死導(dǎo)致實例宕掉。
5)Trace日志分析
查看pmon trace日志發(fā)現(xiàn)pmon一直在等待內(nèi)存分配。
6)IO性能分析
檢查12:23 alert日志出現(xiàn)IO ERROR:無法打開磁盤。
12點33分左右,有嚴重的IO性能問題,經(jīng)分析為內(nèi)存資源耗盡導(dǎo)致IO性能嚴重下降。
2.2 故障總結(jié)
查詢資料文檔發(fā)現(xiàn),應(yīng)用19.13PSU后,疑似觸發(fā)數(shù)據(jù)庫內(nèi)存Bug 32940955以及BUG 33415279、BUG 33225584。
2.3 后續(xù)處理措施
1)打patch 32940955,讓"so private sga"分布到各個Sub Pool里去。
2)打patch 33415279,避免"pga accounting"的內(nèi)存泄漏。
3)patch 33225584,解決了共享池內(nèi)存釋放的調(diào)用kghfrunp時超過1秒的 latch: shared pool 等待的問題。

4)需設(shè)置如下2個隱含參數(shù)

  • "_dlm_stats_collect"=0 :關(guān)閉DLM Statistics Collection功能以減少KJSC rnb slots內(nèi)存組件對shared pool空間的占用。
  • "_shared_pool_reserved_pct"=15 : 建議設(shè)置10%~15%之間,增大reserve pool的size,對于超過4.4KB的內(nèi)存請求是有益處的。




本文作者:胡周盼(上海新炬王翦團隊)

本文來源:“IT那活兒”公眾號


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/129263.html

相關(guān)文章

  • 阿里云出現(xiàn)大規(guī)模故障 “多云”部署或成趨勢

    摘要:昨天凌晨,阿里云出現(xiàn)大規(guī)模故障,導(dǎo)致部分互聯(lián)網(wǎng)公司和運行不暢,甚至癱瘓。阿里云表示,針對此次故障,將根據(jù)協(xié)議,盡快處理賠償事宜,但并未公開詳細的賠償細節(jié)。事實上,這并非阿里云首次出現(xiàn)故障。由此可見,阿里云此次宕機事件影響程度著實不小。昨天凌晨,阿里云出現(xiàn)大規(guī)模故障,導(dǎo)致部分互聯(lián)網(wǎng)公司和App運行不暢,甚至癱瘓。一時之間,阿里云官微下幾乎被反饋宕機問題的留言攻陷,有網(wǎng)友調(diào)侃稱,程序員、運營和運...

    xiaodao 評論0 收藏0
  • 阿里云宕機啟示錄:多云戰(zhàn)略成趨勢,云服務(wù)技術(shù)是決勝關(guān)鍵

    摘要:對此,阿里云官方回應(yīng)稱,宕機原因為,華北地域可用區(qū)部分服務(wù)器等實例出現(xiàn),后經(jīng)緊急排查處理后逐步恢復(fù)。這也意味著,在未來的云服務(wù)競爭中,云服務(wù)供應(yīng)商的技術(shù)能力仍將是決勝關(guān)鍵。在多云戰(zhàn)略時代,帶領(lǐng)企業(yè)走出恐慌區(qū),擴大學(xué)習(xí)區(qū)是關(guān)鍵。隨著上云企業(yè)的越來越多,云服務(wù)宕機帶來了潛在風(fēng)險也越來越大。 昨天(3月3日)凌晨,沒有任何征兆,阿里云出現(xiàn)大規(guī)模宕機故障,華北地區(qū)很多互聯(lián)網(wǎng)公司都受波及,一大波...

    Ilikewhite 評論0 收藏0
  • RustCon Asia 講師和議程公布!

    摘要:還有從歐洲飛來的不同國籍的講師和長期在社區(qū)活躍貢獻的開發(fā)者將與大家在北京相聚。將是一次亞洲社區(qū)的大聚會,也因為此次大會,亞洲本土的社區(qū)連接到了全球其它地區(qū)的社區(qū)。大會現(xiàn)場將有同傳支持,所以不必擔(dān)心語言障礙。 RustCon Asia 上線 CFP(Call For Proposals)接受議題提交的兩周時間里,我們共計收到了中英文議題 50 份!內(nèi)容非常豐富并且比我們預(yù)期的更加多元,在...

    MrZONT 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<