Nightingale 滴滴夜莺 Nightingale 发布 v3 版本,从运维监控演化成了运维平台

UlricQin · 2020年10月08日 · 789 次阅读
本帖已被设为精华帖!

Nightingale从 3 月份开源到现在,过去了半年多点时间,收获了接近 2000 个 github star,300 多个 issue,感谢各位业界同仁的关注和社区参与。

经过慎重考虑,我们决定把商业版本中的更多功能拿出来开源,组成一个轻量级运维平台,这块业界的开源解决方案较少,我们希望贡献一份自己的力量。除了已有的监控告警的能力,又引入了如下功能模块:

  • 用户资源中心:提供完备的用户信息管理、组织结构管理、组织权限管理、组织资源管理、操作审计日志等,里边最重要的是组织权限管理,后面各公司如果要做自己的运维平台功能模块,就可以接入这个通用的权限体系,非常方便。组织资源管理也很重要,各类 IaaS、PaaS 层的资源都可以挂到这棵组织资源树上,各产品项目组,就可以一目了然看到我这个项目用了多少资源,各个资源的监控健康状况。
  • 资产管理系统:这部分开源了主机设备管理部分,相对比较简陋,希望业界同仁能够一起完善。
  • 任务执行中心:开源了最核心的命令执行通道,提供去一批机器批量执行命令的能力,可以用在机器初始化的场景、服务变更发布的场景、小规模文件分发的场景。是个类似 saltstack、ansible 的功能,不过性能会更好,会更成体系化,比如权限部分会和用户资源中心打通,可以控制不同的人对不同的机器有不同的账号执行权限。

另外监控部分也有增强,监控大盘增加了更多的图表类型,告警函数增加了同环比告警、3-sigma 离群点检测等,另外监控策略可以和任务执行中心打通,做到在某个告警发出的时候自动触发某个脚本的执行,这个我们称为初级故障自愈,后面会录制视频讲解用法,欢迎关注我的微信公众号:ops-soldier 获取第一手教程资料

更多原创文章干货分享,请关注公众号
  • 加微信实战群请加微信(注明:实战群):gocnio
kevin 将本帖设为了精华贴 10月09日 10:31
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册