用户实例故事 | zabbix监控不到位，AIOps工具也能补 - 爱站程序员基地-爱站程序员基地

特别喜欢听项目上的工程师们讲故事。常常我们给产品设想好应该这么用应该那么用，到了客户正式环境都会有新变化，还真能给用出点原先没想到的功效来！

这个小实例来自于某证券交易所（嘿嘿，好像国内也没几个大的交易所，就是其中的一个）
发生时间：2019年冬天

生产环境的状况是这样的：

有很多太分散的指标。有npm、bpm平台的，有zabbix(每个中心一个zabbix)平台的，有opmanager平台的，有蓝鲸的，有LDDS平台的，有DCE平台的，等等等…
当然告警也是分散的。想象一下好多系统都有自己的告警，有了风吹草动不管三七二十一先发了告警再说，没有针对告警的聚类收敛、也没有统一的收集展示。

这样就是现状了吗？ no no no，还有更可怕的。告警多了烦人，不告警出了事更吓人

后来这个用户部署了夏洛克AIOps的底层数据处理平台（现在已经升级为“夏洛克数字运维中台”了）。

客户运营端A同志：半小时前，dce环境的一台生产机器，运行异常，down机了，为什么zabbix没有报出来？！下游用户已经在投诉了！！

客户IT运维工程师: 不知道啊，是不是zabbix没监控啊

客户运营端B同志: 但是我看到擎创的大屏上有报告警啊

客户运营端A同志问：夏洛克怎么监控的，你怎么知道这台机器down机了？

回答：我就是用的你们提供的数据啊，我给你们查一下，稍等……

10分钟后………

再次回复：机器运行状态这个指标，不是从zabbix平台取的，是通过一个定时ping测脚本拿到机器down机信息的。

客户: 你们平台赶紧上吧，加快进度……

要是发现得晚点，该引起全国皆知的故障了。

智能运维软件平时就是收集收集数据，关键时刻才发威