Describe 首頁/2023-02-23 here.
今天的会议主要讨论了存储IO错误导致的数据库宕机问题. 对故障进行了总结和回顾.
以下为故障处理概况:
1.在xx日,xx数据库出现了异常宕机,数据库无法正常重启,检查数据库日志,发现有报IO错误(坏块),导致数据访问异常,且数据库不能正常恢复.
2.存储LUN是通过RDM(裸设备)映射给数据库虚拟机, 检查了数据库操作系统日志, 发现相关的IO访问的错误, 但在存储上无明显异常IO报错.
3.经过讨论和确认, 紧急从灾备存储中恢复了数据,数据库能够正常启动, 业务恢复.
4.之后收集了存储信息进行深入分析,结合当前存储/硬盘微码版本, 发现当前硬盘微码存在BUG,该BUG可能会引发类似IO问题
后续建议
1. 考虑在合适的维护窗口升级一下当前存储微码和硬盘微码.
2. 定期检查存储微码版本发布情况, 主要关注BUG修复和安全补丁方面的内容, 以评估是否需要进行存储相关微码的升级操作.
3. 后期建议构建存储双活和数据库的容灾环境, 提高可用性和满足集团对业务RTO/RPO方面的要求.
