Nightingale 一站式监控告警系统夜莺相关问题排查思路

UlricQin · 2020年08月10日 · 679 次阅读

1、相关进程是否都启动了

服务端进程有 8 个,transfer、tsdb、index、judge、monapi、rdb、ams、job,客户端进程一个 agent

2、相关进程是否有可疑日志

日志在二进制所在目录的 logs 下,分了多个目录,要先做相关排查。作为一个 IT 从业人员,一定要能通过架构和日志做排查

3、系统时间是否校准了

监控系统是时序数据处理的系统,对系统时间的校准要求比较苛刻,服务端、客户端的时间需要一致,相差不要超过 1s

4、检查防火墙、安全组规则

比如超时了,访问不通了,先通过 telnet 确认一下,很可能是网络 acl 的限制

5、相关文档和视频请先看完

https://github.com/didi/nightingale github 上面的 readme、https://github.com/didi/nightingale/wiki wiki 页面、ops-soldier 公众号的视频教程

6、加入微信互助交流群,请注明加群

更多原创文章干货分享,请关注公众号
  • 加微信实战群请加微信(注明:实战群):gocnio
暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册