AI智能
改变未来

用户实例故事 | zabbix监控不到位,AIOps工具也能补

特别喜欢听项目上的工程师们讲故事。常常我们给产品设想好应该这么用应该那么用,到了客户正式环境都会有新变化,还真能给用出点原先没想到的功效来!

这个小实例来自于某证券交易所 (嘿嘿,好像国内也没几个大的交易所,就是其中的一个)
发生时间:2019年冬天

生产环境的状况是这样的:

  •  有很多太分散的指标。有npm、bpm平台的,有zabbix(每个中心一个zabbix)平台的,有opmanager平台的,有蓝鲸的,有LDDS平台的,有DCE平台的,等等等…
  •  当然告警也是分散的。想象一下好多系统都有自己的告警,有了风吹草动不管三七二十一先发了告警再说,没有针对告警的聚类收敛、也没有统一的收集展示。

这样就是现状了吗? no no no,还有更可怕的。告警多了烦人,不告警出了事更吓人

 

 

后来这个用户部署了夏洛克AIOps的底层数据处理平台 (现在已经升级为“夏洛克数字运维中台”了)。

客户运营端A同志:半小时前,dce环境的一台生产机器,运行异常,down机了,为什么zabbix没有报出来?!下游用户已经在投诉了!!

客户IT运维工程师:  不知道啊,是不是zabbix没监控啊

客户运营端B同志: 但是我看到擎创的大屏上有报告警啊

客户运营端A同志问:夏洛克怎么监控的,你怎么知道这台机器down机了?

回答:我就是用的你们提供的数据啊,我给你们查一下,稍等……

10分钟后………

再次回复:机器运行状态这个指标,不是从zabbix平台取的,是通过一个定时ping测脚本拿到机器down机信息的。

客户:  你们平台赶紧上吧,加快进度……

要是发现得晚点,该引起全国皆知的故障了。

智能运维软件平时就是收集收集数据,关键时刻才发威

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 用户实例故事 | zabbix监控不到位,AIOps工具也能补