ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【故障公告】阿里云 RDS 实例 CPU 100% 故障引发全站无法正常访问

2020-06-24 10:02:35  阅读:322  来源: 互联网

标签:全站 RDS 故障 主备 切换 SQL CPU


非常抱歉,今天凌晨 3:20~8:30 左右,我们使用的阿里云 RDS 实例 SQL Server 2016 标准版突然出现 CPU 100% 故障,造成全站无法正常访问,由此给您带来巨大的麻烦,请您谅解。

问题很奇怪,故障期间是数据库服务器负载极低的时间段。从阿里云 RDS 控制台 CloudDBA 看,故障期间下面的一个 SQL 语句大量执行,并且极其消耗 CPU 。

开始我们以为是这个 SQL 语句引发的故障,但排查下来这个 SQL 语句本身并没有性能问题,而且已经使用了至少6个月。

最终恢复正常是通过 RDS 的2次主备切换,当发现故障后,我们立即进行主备切换,但切换后 CPU 依然 100% ,然后我们排查 SQL 语句的问题,排查未果,然后又进行一次主备切换,才恢复正常。

事后分析后发现应该是第一次主备切换没有成功完成,阿里云 RDS 控制台查看不到主备切换日志,但2次切换,只有第2次收到邮件通知,由此可以推断。

您的云数据库RDS实例:xxx(名称:enable or disable task fetching while rds2slb transgfer.)任务触发切换完毕,请检查程序连接是否正常,建议设置自动重连机制以避免切换影响。

问题的原因有待进一个分析,再次抱歉由此给您带来的麻烦。

标签:全站,RDS,故障,主备,切换,SQL,CPU
来源: https://www.cnblogs.com/cmt/p/13185741.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有