- 全球分布式监测网络。200 分布式监测节点覆盖全球112个城市以及主要运营商网络,网络规模持续扩大中。
- 主动监测。监测节点按照预设规则模拟真实用户发起主动监测,实时掌控网络性能,聚焦用户体验。
- 立体化覆盖。HTTP/HTTPS/TCP/UDP/TR/DNS/PING等多种协议类型,全面问诊网络、业务健康。
- 面向业务。通过包含多步请求的事物监控实现业务流程的监测,保障业务的稳定性和可用性。
- 持续监控。24/7小时全天候监测网站和网络性能,多渠道服务支持,减少可能发生的中断。
- 快照 MTR。先进的问题诊断与分析机制,问题发生之前和问题恢复之后的数据尽在掌握,快速定位故障。
- 灵活告警。短信、邮件、微信、语音、API等多种告警方式,确保告警能够被即时送达。
专业的分析报告。提供综合排名、竞品分析、同比/环比、日/周报等多维度的数据报告,满足专业化定制需求。
使用场景分析- 网络链路质量监控与评估。通过采集不同地区、不同运营商链路的时延、丢包、网络抖动情况,从时间、地域、运营商等维度综合分析网络链路质量及可用率,快速发现和准确定位网络问题,便于及时进行链路调整,保障全网用户的体验。
- CDN监控。通过海量的分布式节点模仿真实用户访问,监控CDN性能,评估CDN的加速情况,确保最佳的用户体验,可用于CDN选型评估、CDN加速效果评估、CDN故障排查与定位等使用场景。
API接口监测。通过监控API接口的响应时间、可用性和正确性并及时告警来保证API服务的可靠性,可用于API接口性能优化、第三方API接口监控等使用场景。
Graphite(2008)Graphite是一个开源实时的、显示时间序列度量数据的图形系统,通过其后端接收度量数据,然后以实时方式查询、转换、组合这些度量数据。
优势指标点分概念引入
Grafana支持较早的协议之一
统计函数支持(140 )
劣势指标无Label支持
使用场景分析在做好数据归并时可用于大规模场景
现代(2015-2021)Prometheus(2016)Prometheus 是由 SoundCloud 开源的监控告警解决方案。存储的是时序数据,即按相同时序(相同名称和标签),以时间维度存储连续的数据的集合。
优势时序型存储、查询效率高。
支持集群模式,扩展性强。
- CNCF项目,社区活跃。
一些Exporter采集的指标众多,需进行适当裁剪。
自定义采集脚本需要脚本开发能力(Golang、Python),相比Shell脚本来说学习成本更高一些。
使用场景分析对于云计算、容器化场景更适合
夜莺(2018)夜莺是一套分布式高可用的运维监控系统,前身是国内大名鼎鼎的open-falcon。基于一些国内特殊的运维场景和习惯,在运维圈中有着不俗的场景理解和用户体验。
优势社区活跃,有open-falcon群众基础。
产品设计灵活,人性化。
v4版本自带小型CMDB和自动化。
v5版本全面拥抱开源体系(Prometheus Telegraf)。
劣势v5刚发布,仍然需要一定的时间积累
后端存储的选型多样,需要根据场景进行选择
缺少日志类和Tracing类的监控场景
使用场景分析- 所有指标类的监控
云原生的出现导致在k8s环境下的可观测性难度极具增加,因此出现了eBPF等新技术,但无奈市场上大部分的客户Linux内核还不足以支持相关的技术。但可以看到的是DataDog skywalking 云杉等目前都在向eBPF进行布局。除了增强程序自身的可观测性之外,可以预见在不久的将来,随着Linux内核的不断的完善以及客户环境逐渐的成熟。在运维角度可以发力的可观测性的选择一定会越来越多。