使用 PagerDuty 流程自动化和 InfluxDB 降低 DevOps 和 SRE 的 MTTR

导航至

平均恢复时间 (MTTR) 是一个超越行业和技术的指标。它是衡量支持团队平均识别、采取行动和解决 IT 问题和事件的速度的指标。由于 MTTR 与服务质量直接相关,因此保持较低的 MTTR 是 DevOps 和 SRE 团队的关键目标。这些团队非常希望快速解决问题,因为将事件升级到更高层级的支持团队会增加响应和解决时间。快速且持续地解决问题可以创造更好的最终用户体验,减少错误,并提高组织的整体效率。

识别流程

拥有能够快速识别、评估和修复问题的工具可以减少事件和中断对最终用户的影响。为了更好地控制事件管理,PagerDuty 团队首先将流程分解为多个阶段。这些阶段包括监控阶段、事件管理阶段和 Runbook 执行阶段,他们为每个阶段寻求了最佳解决方案。

他们最终决定使用 InfluxDB 来处理监控。他们以几种不同的方式使用 InfluxDB 平台。他们在整个基础设施中部署 Telegraf 以监控所有不同的系统。解决方案顾问 Craig Hobbs 为这些部署构建了一个 InfluxDB 模板,因为它们包含了设置数据收集所需的一切,包括 Telegraf 和相关的插件,只需几分钟即可完成。

使用最佳解决方案构建

Telegraf 实例将数据发送到 InfluxDB,InfluxDB 处理这些高容量时间序列数据,并根据这些数据智能地分发所有触发器和警报。InfluxDB 处理高容量和高速度时间序列数据的能力使其能够从嘈杂的数据中脱颖而出,并识别出真正需要关注的事件。

IT-infrastructure-monitoring

这些触发的警报会发送到 PagerDuty,PagerDuty 为事件管理阶段提供支持。PagerDuty 能够协调和聚合有关问题的所有信息,并确定解决问题所需的 Runbook。然后 PagerDuty 流程自动化执行正确的 Runbook。

PagerDuty 流程自动化不仅执行 Runbook,还将该事件生成的数据发送回 InfluxDB 和 PagerDuty,以便这些工具可以改进其应用程序逻辑并在未来表现更好。

益处和效率

整个过程提高了事件管理中的自动化水平,使其更加高效和有效。InfluxDB 为来自 Telegraf 和 PagerDuty 的数据提供可视化,因此用户可以在一个位置获得系统范围的视图。这种设置具有极强的适应性和可扩展性,这在很大程度上归功于 InfluxDB 和 Telegraf 与几乎任何数据源集成的能力。这些工具为开发者提供了他们需要的灵活性和他们想要的控制权。而模板的使用使解决方案能够快速且轻松地部署。

通过将最佳解决方案(包括开源和专有解决方案)结合在一起,PagerDuty 创建了一个对开发者来说足够灵活的解决方案,并满足了不断增长的数据量、各种利益相关者和升级以及基础设施监控和自动修复所涉及的复杂性。它还有助于减少事件数量和整体 MTTR。

欲了解更多信息,请阅读完整的案例研究