特别喜欢听项目上的工程师们讲故事。常常我们给产品设想好应该这么用应该那么用,到了客户正式环境都会有新变化,还真能给用出点原先没想到的功效来!
这个小实例来自于某证券交易所 (嘿嘿,好像国内也没几个大的交易所,就是其中的一个)
发生时间:2019年冬天
生产环境的状况是这样的:
- 有很多太分散的指标。有npm、bpm平台的,有zabbix(每个中心一个zabbix)平台的,有opmanager平台的,有蓝鲸的,有LDDS平台的,有DCE平台的,等等等…
- 当然告警也是分散的。想象一下好多系统都有自己的告警,有了风吹草动不管三七二十一先发了告警再说,没有针对告警的聚类收敛、也没有统一的收集展示。
这样就是现状了吗? no no no,还有更可怕的。告警多了烦人,不告警出了事更吓人
后来这个用户部署了夏洛克AIOps的底层数据处理平台 (现在已经升级为“夏洛克数字运维中台”了)。
客户运营端A同志:半小时前,dce环境的一台生产机器,运行异常,down机了,为什么zabbix没有报出来?!下游用户已经在投诉了!!
客户IT运维工程师: 不知道啊,是不是zabbix没监控啊
客户运营端B同志: 但是我看到擎创的大屏上有报告警啊
客户运营端A同志问:夏洛克怎么监控的,你怎么知道这台机器down机了?
回答:我就是用的你们提供的数据啊,我给你们查一下,稍等……
10分钟后………
再次回复:机器运行状态这个指标,不是从zabbix平台取的,是通过一个定时ping测脚本拿到机器down机信息的。
客户: 你们平台赶紧上吧,加快进度……
要是发现得晚点,该引起全国皆知的故障了。
智能运维软件平时就是收集收集数据,关键时刻才发威