摘要:通常發(fā)生該問題的場景有二一云主機和宿主機繁忙,云主機的請求得不到及時的響應,從而產(chǎn)生磁盤錯誤,為了保護磁盤數(shù)據(jù)會分區(qū)為只讀二云主機被強制關(guān)機,導致磁盤出現(xiàn)文件系統(tǒng)錯誤故障。
本文由作者朱益軍授權(quán)網(wǎng)易云社區(qū)發(fā)布。
背景
維護巡檢云主機時,發(fā)現(xiàn)有一臺運行redis的云主機狀態(tài)顯示維護中,登錄該實例查看,系統(tǒng)盤變成readonly。本文簡單分析該問題出現(xiàn)原因,并為運維人員提供常見處理方法及建議。
故障分析
查看云主機dmesg信息發(fā)現(xiàn),系統(tǒng)運行過程中python進程發(fā)生segfault,隨后vda(云主機配置virtio-blk,故盤符顯示為vda)系統(tǒng)盤I/O error。
[8349644.226151] Clock: inserting leap second 23:59:60 UTC
[8744049.152007] The scan_unevictable_pages sysctl/node-interface has been disabled for lack of a legitimate use case. If you have one, please send an email to [email protected].
[42731185.176179] end_request: I/O error, dev vda, sector 12590864
[42731185.468491] EXT4-fs error (device vda1): __ext4_get_inode_loc:3697: inode #403168: block 1573613: comm updatedb.mlocat: unable to read itable block
[42731185.471307] Aborting journal on device vda1-8.
[42731185.472359] journal commit I/O error
[42731185.473183] EXT4-fs error (device vda1): ext4_journal_start_sb:327: Detected aborted journal
[42731185.474761] EXT4-fs (vda1): Remounting filesystem read-only
[42731185.588205] EXT4-fs (vda1): Remounting filesystem read-only
[42731185.750067] end_request: I/O error, dev vda, sector 12590872
[42731185.751578] EXT4-fs error (device vda1): __ext4_get_inode_loc:3697: inode #403173: block 1573614: comm updatedb.mlocat: unable to read itable block
[42817852.384073] EXT4-fs (vda1): error count since last fsck: 4
[42817852.384077] EXT4-fs (vda1): initial error at time 1517610339: __ext4_get_inode_loc:3697: inode 403168: block 1573613
[42817852.384081] EXT4-fs (vda1): last error at time 1517610340: __ext4_get_inode_loc:3697: inode 403173: block 1573614
[42904359.904061] EXT4-fs (vda1): error count since last fsck: 4
[42904359.904065] EXT4-fs (vda1): initial error at time 1517610339: __ext4_get_inode_loc:3697: inode 403168: block 1573613
[42904359.904069] EXT4-fs (vda1): last error at time 1517610340: __ext4_get_inode_loc:3697: inode 403173: block 1573614
[42990867.424056] EXT4-fs (vda1): error count since last fsck: 4
[42990867.424060] EXT4-fs (vda1): initial error at time 1517610339: __ext4_get_inode_loc:3697: inode 403168: block 1573613
[42990867.424064] EXT4-fs (vda1): last error at time 1517610340: __ext4_get_inode_loc:3697: inode 403173: block 1573614
基本可確定是業(yè)務把系統(tǒng)盤寫壞了。通常發(fā)生該問題的場景有二:
一、云主機和宿主機IO繁忙,云主機的IO請求得不到及時的響應,從而產(chǎn)生磁盤IO錯誤,為了保護磁盤數(shù)據(jù)會remount分區(qū)為只讀;
二、云主機被強制關(guān)機,導致磁盤出現(xiàn)文件系統(tǒng)錯誤故障。
故障處理
通常的解決方法是重啟系統(tǒng)以root用戶進入單用戶模式,運行fsck.ext3 –y /dev/vda(如果是ext4使用fsck.ext4修復),/dev/vda是系統(tǒng)/根分區(qū)。修復完reboot進入系統(tǒng)。以debian系統(tǒng)為例:
1、重啟系統(tǒng),grub菜單會出現(xiàn)正常啟動和修復模式(recovery mode)啟動兩個菜單項,選擇修復模式啟動;
2、進入修復模式,運行fsck工具修復;
3、重啟進入正常模式啟動。
注意:
1、運維人員在重啟云主機之前盡量先收集一些關(guān)鍵的日志,如/var/log下面的一些日志、dmesg等,有條件也要收集宿主機的日志;
2、fsck是Linux內(nèi)核自帶工具,它不僅可以對文件系統(tǒng)進行掃描,還能修正文件系統(tǒng)的一些問題。fsck掃描文件系統(tǒng)時一定要在單用戶模式、修復模式或把設備umount后進行。建議在單用戶模式下運行。如果掃描正常運行中的系統(tǒng),會造成系統(tǒng)文件損壞,需要root權(quán)限執(zhí)行。
建議與思考
1、當前開發(fā)要定位問題,需要申請宿主機權(quán)限等流程,無法及時上去定位;
2、當前云主機的日志收集功能尚不完善,呈現(xiàn)的日志比較雜、亂、實用性不高,需要適當進行修改調(diào)整。另外,運維人員也不知道要收集哪些日志可支撐開發(fā)定位;
開發(fā)正在考慮開發(fā)一個一鍵式日志收集工具,集成到版本中,定期采集系統(tǒng)數(shù)據(jù)并歸檔,或者在發(fā)生故障時,由運維先收集分析,再交給開發(fā)定位,這樣效率會高一些。
更多網(wǎng)易技術(shù)、產(chǎn)品、運營經(jīng)驗分享請訪問網(wǎng)易云社區(qū)。
文章來源: 網(wǎng)易云社區(qū)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/25323.html
摘要:執(zhí)行容器內(nèi)部運行的執(zhí)行工作作為容器的執(zhí)行驅(qū)動,負責創(chuàng)建容器運行命名空間,負責容器資源使用的統(tǒng)計與限制,負責容器內(nèi)部進程的真正運行等。典型的在啟動后,首先將設置為進行一系列檢查然后將其切換為供用戶使用。 在https://segmentfault.com/a/11... 容器,隔離,云的概述。這篇對其中用途廣泛的docker,k8s做詳細介紹,并給出云搭建的生態(tài)環(huán)境體系。 docker ...
摘要:執(zhí)行容器內(nèi)部運行的執(zhí)行工作作為容器的執(zhí)行驅(qū)動,負責創(chuàng)建容器運行命名空間,負責容器資源使用的統(tǒng)計與限制,負責容器內(nèi)部進程的真正運行等。典型的在啟動后,首先將設置為進行一系列檢查然后將其切換為供用戶使用。 在https://segmentfault.com/a/11... 容器,隔離,云的概述。這篇對其中用途廣泛的docker,k8s做詳細介紹,并給出云搭建的生態(tài)環(huán)境體系。 docker ...
摘要:為了滿足在更多復雜場景科研攻堅時,對于超高性能算力高速網(wǎng)絡傳輸海量數(shù)據(jù)存儲的更高需求,再次發(fā)力,于近日推出了為科研量身定制的新一代超算產(chǎn)品,并將正式更名為云極高性能計算以下簡稱??蒲惺强萍紕?chuàng)新的基礎,而高性能計算則是科研的基石。隨著數(shù)字化走向縱深,科研教育進入信息化時代。在科研項目的推進過程中,往往會面對復雜的數(shù)據(jù)密集型計算任務,例如仿真、數(shù)據(jù)建模、渲染等大量運算場景。此時如果使用單一的通用...
摘要:為了滿足在更多復雜場景科研攻堅時,對于超高性能算力高速網(wǎng)絡傳輸海量數(shù)據(jù)存儲的更高需求,再次發(fā)力,于近日推出了為科研量身定制的新一代超算產(chǎn)品,并將正式更名為云極高性能計算以下簡稱。科研是科技創(chuàng)新的基礎,而高性能計算則是科研的基石。隨著數(shù)字化走向縱深,科研教育進入信息化時代。在科研項目的推進過程中,往往會面對復雜的數(shù)據(jù)密集型計算任務,例如仿真、數(shù)據(jù)建模、渲染等大量運算場景。此時如果使用單一的通用...
閱讀 2628·2021-09-28 09:36
閱讀 2245·2021-09-07 09:58
閱讀 1504·2019-08-26 13:53
閱讀 1285·2019-08-23 17:53
閱讀 3035·2019-08-23 15:34
閱讀 1858·2019-08-23 15:34
閱讀 2875·2019-08-23 12:04
閱讀 3727·2019-08-23 10:56