使用 PagerDuty 流程自动化和 InfluxDB 降低 DevOps 和 SRE 的 MTTR

导航到

平均恢复时间(MTTR)是一个超越行业和技术的指标。它是衡量支持团队识别、行动和解决 IT 问题及事件速度的平均指标。由于 MTTR 直接关系到服务质量,因此保持低 MTTR 是 DevOps 和 SRE 团队的关键目标。这些团队有尽快解决问题的直接利益,因为将事件升级到支持团队的更高层次会增加响应和解决时间。快速且持续地解决问题可以创造更好的用户体验,减少错误,并使组织整体效率更高。

确定流程

拥有快速识别、评估和解决问题的工具可以减少事件和中断对最终用户的影响。为了更好地控制事件管理,PagerDuty 团队首先将流程分解为阶段。包括监控阶段、事件管理阶段和运行手册执行阶段,并为每个阶段寻求最佳解决方案。

他们决定使用 InfluxDB 来处理监控。他们以几种不同的方式使用 InfluxDB 平台。他们在整个基础设施中部署 Telegraf 来监控所有不同的系统。解决方案顾问 Craig Hobbs 为这些部署构建了一个 InfluxDB 模板,因为这些部署只需几分钟即可设置数据收集,包括 Telegraf 和相关插件。

构建最佳解决方案

Telegraf 实例将数据发送到 InfluxDB,InfluxDB 处理这些高量级的时间序列数据,并根据这些数据智能地派发所有触发器和警报。InfluxDB 处理高量级和高速度时间序列数据的能力使其能够穿越噪音数据,并识别真正需要关注的那些事件。

IT-infrastructure-monitoring

这些触发的警报发送到 PagerDuty,它负责事件管理阶段。PagerDuty 能够协调和汇总有关问题的所有信息,并确定需要哪个运行手册来解决该问题。然后,PagerDuty 流程自动化执行正确的运行手册。

PagerDuty 流程自动化不仅执行运行手册,而且还发送从该事件生成回 InfluxDB 和 PagerDuty 的数据,以便这些工具可以优化其应用逻辑并在未来表现更好。

效益和效率

整个过程提高了事件管理的自动化水平,使其更加高效和有效。InfluxDB为来自Telegraf和PagerDuty的数据提供可视化,用户可以在一个位置获得系统级的视图。这种设置具有极高的适应性和可扩展性,这在很大程度上归功于InfluxDB和Telegraf与几乎任何数据源集成的能力。这些工具为开发者提供了所需的灵活性和控制权。模板的使用使解决方案快速、易于部署。

通过结合最佳的开源和专有解决方案,PagerDuty创建了一个灵活的解决方案,满足开发者需求,满足不断增长的数据量、各种利益相关者和升级的要求,以及基础设施监控和自动修复的复杂性。这也有助于减少事件数量和整体MTTR。

有关更多信息,请阅读完整的案例研究