ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

故障定级标准

2022-02-10 22:03:25  阅读:954  来源: 互联网

标签:P2 P3 标准 前端 定级 分钟 故障 异常


1. 目的 前端基础是所有前端业务的基石,并保障着前端业务的稳定性和可靠性,前端基础稳定,才能保证前端业务稳定,一旦出现问题,影响范围大,所以保障前端基础的稳定性和可靠性是重中之重,但是随着前端业务量的井喷,以及基础设施的复杂性,问题的多样性,对故障处理过程的规范性、专业度要求越来越高。 因此,为了加强基础技术团队的质量意识,责任意识,提高基础团队的故障处理和协作能力,特制订本制度,规范团队的故障管理,并实现标准化、流程化。 2. 适用范围 前端基础技术团队 3. 定义解释 3.1 职责定义
序号 角色 故障责任定义
1 开发 因技术方案设计问题、代码实现bug、代码逻辑等问题导致的故障
2 运维 因基础设施变更,不稳定,异常无法提供服务等问题导致的故障
          4. 故障标准 4.1 故障定义 1.发生的、影响业务正常运作的问题或事故,认定为“故障” 2.同一类问题发生频次超过某个数量,也可认定为故障。 4.2 故障分类
序号 类别 定义 举例
1 流程执行类 主要指因未遵照公司或部门既有规范、流程执行而导致的故障,或故障发生后未按照本制度要求处理等情况。 如发布至线上前未进行过测试;发布后未充分进行线上回归验证、未充分观察日志/监控等产生的故障;未及时发布故障通告、或其他“瞒报”、“漏报”等情况;故障响应不及时等
2 人员意识类 主要指因人为主观意识不到位、故意或抱侥幸心理未严格谨慎操作而导致的故障。 如责任意识不强、线上严谨意识不足、安全意识不足等。注:若因人员意识不到位而违反现有流程规范的故障,则直接定义为“流程执行类”故障。
3 能力经验类 主要指个人能力、经验不足,或部门相关业务或技术积累不够导致的故障。 如新业务、新技术或历史技术架构设计等遗留问题
4 监控报警类 主要指未设置监控报警、或监控报警出现问题而引发的故障。 如因告警阈值设置不合理,未及时收到告警进行处理,最终导致发生线上故障。注:未及时响应监控报警,属于流程执行类故障。
5 不可抗力类 主要指因外部不可抗力引发的故障。 如供应商故障(包括不限于机器、网络等故障)、外在环境原因(如施工挖断线路、国家封网)导致的故障等。
4.3 故障等级 4.3.1 故障定级原则 1.故障关键因素时长和影响面 2.影响面和故障时常同时满足,直接定级 3.影响面和故障时长不匹配时,取级别低的故障定级升一级作为最终故障定级1.比如影响时长5-10min,影响60%流量,按时长定级为p4,影响面定级为p1, p4和p1取较小值为p4, p4升一级,作为p3定级2.对外系统最高定级p1, 对内系统最高p2 4.流程故障遵循公司统一原则 4.3.2 通用故障等级定义
故障等级标识 故障等级名词 故障等级定义 影响面 故障时长 故障举例 备注
P1 重大故障 前端业务大部分不可访问,流量受损>=30%,并且持续时间>=60分钟 前端项目不可访问或者访问异常>=30% >=60分钟 腾讯云slb故障导致前端页面全部无法访问  
P2 严重故障 前端业务部分不可访问,流量受损10%~30%,并且持续时间>=30分钟 前端项目不可访问或者访问异常10%~30% >=30分钟    
P3 一般故障 前端业务小部分不可访问,流量受损1%~10%,并且持续时间>=10分钟 前端项目不可访问或者访问异常1%~10% >=10分钟 istio管理面故障导致ingress无法访问到更新后的服务  
P4 轻微故障 前端业务小部分流量访问异常,流量受损1%,持续时间>=5分钟 前端小部分流量访问异常 >=5分钟    
                  基础设施故障定义不涉及由通用故障等级定义兜底。 4.3.3 基础设施故障等级划分定义
序号 基础设施 故障等级 故障时长 影响面 故障举例
1 Istio P1 >=60分钟 istio管理面异常或者不可用  
    p2 >=30分钟 istio管理面异常或者不可用  
    P3 >=15分钟 部分流量转发异常  
    P4 >=5分钟 部分流量转发异常  
2 k8s p1 >=60分钟 Kubernetes master异常或者不可用  
    P2 >=30分钟 Kubernetes master异常或者不可用  
    P3 >=15分钟 部分功能异常  
    P4 >=5分钟 部分功能异常  
3 Coredns P1 >=15分钟 coredns不可用  
    P2 >=10分钟 coredns不可用  
    p3 >=30分钟 coredns部分功能异常如处理缓慢  
4 容器网络 p1 >=15分钟 集群容器网络全部异常  
    P2 >=10分钟 集群容器网络全部异常  
    P3 >=30分钟 单点或者多点容器网络异常  
4 Ingress p1 >=60分钟 Ingress异常或者不可用  
    P2 >=30分钟 Ingress异常或者不可用  
    P3 >=60分钟 部分流量转发异常  
    P4 >=30分钟 部分流量转发异常  
5 告警平台 P1      
    P2      
    P3      
    P4      
6 网关 P1      
    P2      
    P3      
    P4      
7 发布平台 P1      
    P2      
    P3      
    P4      
8 任务平台 P1      
    P2      
    P3      
    P4      
                                                                                                                  4.4 故障升级  
故障等级 故障升级
p1 ----
P2 >=60分钟未解决或者未处理
p3 >=180分钟未解决或者未处理
P4 >=300分钟未解决或者未处理
   

标签:P2,P3,标准,前端,定级,分钟,故障,异常
来源: https://www.cnblogs.com/muqilv/p/15881227.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有