ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

争议 | 巡检和监控究竟有何区别?如果监控足够完善,自动化巡检还有没有价值?

2021-05-02 17:51:45  阅读:207  来源: 互联网

标签:巡检 运维 系统 有何 指标 监控 自动化


图片

巡检的核心意义是什么?与监控的最大区别在哪里?巡检是监控的补充,还是监控是巡检的补充?如果监控做的足够的完善,自动化巡检还有价值么?

之所以要做巡检,是不是因为很多指标无法采集和监控到,需要人去检查?如果指标都可以采集到,而且都可以进行告警。自动巡检还有什么意义呢?我能想到几点,但感觉都不是有很大的意义:

1、现有的指标告警基于规则,不能够发现潜在问题,而且信息比较分散,需要人基于巡检报告去做分析从而挖掘出深层次的潜在问题。

2、不是所有指标都需要做监控和告警,否则一是频繁的采集指标和告警会有性能问题,二是不重要的指标告警会打扰到运维人员。很多指标每天进行一次巡检来分析一下就可以了。

大家对于自动化巡检怎么看呢?

问题来自社区会员,下文来自twt社区众多同行实践经验分享,欢迎大家参与交流,各抒己见。

* “争议”栏目内容来自同行分享的一手体验和观察,仅代表个人观点


@jason2006xu 昆仑银行 技术经理:

如果监控做的足够的完善,个人觉得自动化巡检价值不太大。

理由如下:

1、自动化巡检的指标无非就是操作系统、数据库、中间件的某些指标,如磁盘空间、数据库表空间等。

2、自动化巡检的周期是天、周、月等,或者重大节假日。

3、自动化巡检的指标只能是主动指标,无非包括被动指标,如业务系统的成功率、响应率,响应时间等。

4、监控系统主动指标采集数据周期一般为5分钟,包括磁盘空间、数据库表空间、实例、锁表、网络设备性能指标。

5、监控系统被动指标基本为一分钟或者更短时间,如业务系统成功率、响应率、响应时间等。

总之,监控系统的监控指标包括但不限于自动化巡检指标,而且监控系统的也可以出巡检报告,所以说监控系统足够完善的话可以替代自动化巡检。


@youki2008 DDT 系统架构师:

总的来说,巡检是对监控的一种补充。

巡检是人工进行的例行检查,对机房数据中心的环境和设备进行检查登记,及时发现故障和隐患。监控系统是通过网络协议采取相关设备(例如服务器,存储,交换机,路由器,备份设备等)和系统(例如windows,Linux,Web,db,负载均衡等)的数据,根据设定的规则来判断是否存在故障或隐患。当时监控系统对网络和承载的系统依赖性比较大。如果一旦出现网络中断或抖动或者承载的系统出现故障很容易引起误报或失效。


@hufeng719 某钢铁企业 系统工程师:

首先要弄清楚监控与巡检的区别:单从字面理解,监控毕竟只是监控,不是自动化运维,只能预警,不能干预。只能通过采集到的数据进行人为分析(或者机器学习)汇总结果,不能完全的去替代人的操作。就拿我们生产环境而言,可以监控故障,预测设备运行状况。但是真出现问题,不能轻易用系统人为修改参数后去自动控制生产,这会存在很大的安全隐患。如果真感染病毒,会对生产造成非常严重的事故。比如煤气阀门的控制等等。举这个例子就是想说明,监控只是辅助手段无法完全替代人为的巡检。

巡检在运维过程中发挥着非常重要的作用。且不说现在的自动化运维各项监控指标还不完善,有些监控指标还无法获取真实有效数据,只是存在理论上的可实现,还没有落地。到目前为止,个人感觉,监控无法完全替代巡检。原因如下:

1、如果遇到特殊情况,比如网络中断、监控服务器故障等等,监控获取不到数据。无法确认机房设备是否正常。

2、即使监控指标足够多,如果出现问题,被监控主机死机、服务挂起等远程无法响应的情况怎么办?

3、有些情况是监控无法做到的。比如:机房进老鼠、灰尘多、机房制冷设备异常导致高温等,都需要现场处理。定期巡检可以发现问题并及时进行干预。


@潘延晟  系统工程师:

其实我觉得监控,已经算是自动化巡检中的一部分了。以我接触过的一个环境为例。一款检测软件。定期检测关键信息的状态。如网络,业务,系统资源等,一旦超过阀值,自动邮件推送报警信息,第二通过zabbix监控网络流量,用来掌握网络状况,多种手段结合。自动巡检是为了更快更方便的去了解所管理的目标。监控是为了更直观的看到想要管理的目标信息。但所有的信息都是死的。只有人是活的。巡检报警有可能会误报,也有可能频繁报警。要根据实际的业务去做出调整。

系统架构越来越庞大。要监控的东西也多了,监控也好,自动化巡检也好,都不像以前的单机架构。只凭一些简单的参数阀值就能满足运维需求了。现在的架构复杂。一点问题就可能导致整个架构的崩塌。而这些问题往往又不完全是简单的是或否的关系。

虽说现在不断的提出自动化运维,智能运维平台。但其实将来系统架构,软件维护对运维的考验会更大,对系统架构设计的考验也会增大。一个是前期设计。一个是后期保养。有任何一个没做好都会惹出大麻烦。


@张文正 dcits 系统工程师:

巡检是对监控的最大补充,有些隐藏的问题是监控所监控不到的,巡检实际上对预防性维护,巡检过程中能发现很多问题是监控所做不到的,特别是一些应用软件等方面的,还有一些系统方面的等等吧!所以日常定期巡检很必要啊!

自动化巡检只是巡检的一个辅助,可以做一些巡检中常规的部分,像性能分析、预防性巡检、维护还是需要人为去做。


@he7yong Canway 研发工程师:

巡检管理是一项偏管理的工作,也业务运行保障的重要支撑,涉及巡检人员安排,巡检结果复盘,等等。

巡检工具是支持巡检管理工作的,让巡检更加的高效。

监控更多的是一个工具,他用来及时的发现问题保障系统稳定运行,巡检做和不做和监控系统是否全面没有关系。

因为他们都是用来保障稳定运行的,如果说有工具和管理体系让系统已经足够稳定,那么人工巡检管理的工作可能会淘汰掉。


@chinesezzqiang  信息技术经理:

自动巡检是监控的一个不可或缺的组件,所以自动巡检的功能也是监控是否足够完善的必要条件。

1.成熟的监控系统几乎都具备自动巡检的能力,只是巡检指标和巡检的能力差异而已;

2.监控系统可以细颗粒度的监控各种设备,如网络设备、服务器、存储等等,但是始终需要人工处理故障。但是自动巡检可以实现问题的自动发现,并通过定制好的解决方案自动处理问题,比如重启设备等;

3.自动巡检与监控系统集成可以大幅度降低人工成本,减少错误率;

4.当然并不是监控具备了自动巡检功能,就可以忽略人工的价值,比如火灾、空调异常等等。只是说可以更好的帮助运维人员及时发现问题、解决问题;

5.自动巡检是智能化运维不可或缺的一个组件,随着被监控设备的增加,监控项的细化,其重要性越发凸显。


@孙振宇 沈阳地铁 技术支持:

首先 题目中说述“监控”指的是数据或信息的采集么?自动化巡检指的是人根据系统的指示去检查某项指标么?

先这么理解吧,智能运维一定是采集的设备状态信息的维度越多越好,多维度的信息和指标做对比,能够判断设备设施是否出现问题,预判即将出现问题。那么你所说的信息比较分散,需要人去做分析和挖掘。那么我觉得你更需要设计一套规则,让计算机帮你算出潜在问题。因为数据分析和挖掘不是人力可达的。那么智能以外一定有机器代替不了的情况,比如最终解决是人来解决,在比如环境卫生也是人来解决。有些地方的环境是可以影响设备寿命的。我的理解的是机器可以让人少干活,却永远取代不了人来干活。它改变的是我们的工作模式。

我也不知道我理解的是不是跑题了。


@summit 城商行 系统架构师:

监控软件覆盖的范围全不全是首要问题,如果监控软件覆盖范围全的话,会减轻日常巡检的工作量。但是一般商业银行都覆盖不全,目前数据中心的监控涉及的方面比较多,一个监控软件厂商是不能都覆盖全的,比如数据中心基础设施监控(空调、动力、UPS、供电等)、基础环境监控(服务器、操作系统、数据库、中间件、虚拟化、存储、SAN、网络设备、安全设备等)、应用监控(APM)、网络监控(NPM)、链路监控(波峰设备等)等几个大的监控平台,还有比如基于某些特定产品的监控(vmware的operationmanger,存储的TPCC等)。

总体来说监控平台就是系统告警的时候第一时间通过短信或者邮件等方式及时的通知到相关负责人及时处理问题。具体的问题分析还需要人为的进行问题分析和故障定位,日常巡检就是把这些监控平台的数据进行更深入的关联分析,检查监控平台无法监控的内容。


@twsuser  软件开发工程师:

看是什么行业的,如果只是数据中心,自动化巡检没有那么重要。服务器、机柜、环境动力的信息都可以采集并监控了。

如果是电力行业,自动化巡检的对象是变电设备、高压输电线路等,这些很多都没有安装监控的,只能靠巡检。

另外,老的设备、机房都没有完善的监控,这样还是需要巡检。监控做的完善,只能是理想情况。


标签:巡检,运维,系统,有何,指标,监控,自动化
来源: https://blog.51cto.com/u_15127582/2750285

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有