监控与告警

监控一个大规模的系统是一个非常有挑战的事情,组件多,分析繁杂,而又要求监控系统本身的维护非常低。在大规模系统部署下,任何一个单机问题的报警都没有任何意义,因为这发生的太多太频繁。Google监控系统从传统的探针模型(脚本测试,检查结果继而报警)与图形化趋势展示演变为一个基于时间序列数据(Borgmon,类似开源产品有Prometheus等)并使用标准数据分析进行报警的新模型。

白盒监控:基于时间序列有效报警(Borgmon)

黑盒监控

黑盒监控用户监控最终用户访问服务的情况,基于探针实现。探针可以探测前端,也可以探测负载均衡后面的服务,这可以非常方便的发现某个数据中心的问题,而整个系统的服务依然正常工作。

Comments

comments powered by Disqus