服务端进程有 8 个,transfer、tsdb、index、judge、monapi、rdb、ams、job,客户端进程一个 agent
日志在二进制所在目录的 logs 下,分了多个目录,要先做相关排查。作为一个 IT 从业人员,一定要能通过架构和日志做排查
监控系统是时序数据处理的系统,对系统时间的校准要求比较苛刻,服务端、客户端的时间需要一致,相差不要超过 1s
比如超时了,访问不通了,先通过 telnet 确认一下,很可能是网络 acl 的限制
https://github.com/didi/nightingale github 上面的 readme、https://github.com/didi/nightingale/wiki wiki 页面、ops-soldier 公众号的视频教程