通过实时全栈可见性、智能告警和响应自动化迈向 AIOps
作者:Daniella Pontes / 用例, 开发者, 公司
2019 年 11 月 19 日
导航至
InfluxData 与 PagerDuty 的集成将带您走向卓越的 Kubernetes 环境管理之路。
对于所有类型的事件,没有单一的行动手册——这是肯定的。因此,有必要具备灵活性和自适应学习能力,了解环境并采取适当的人工操作,以便及时有效地解决问题。Kubernetes 的临时 pod 和自愈特性使得智能告警的需求更加迫切,因为 Kubernetes 本身就处于不断变化之中,因此,孤立的故障或错误不足以作为触发警报的决策依据。这并不意味着要用大量试图适应模式的静态告警规则使事情复杂化。重要的是,当简单的方法能够解决问题时,不要偏离“简单”,例如在资源受限的情况下,充分理解风险阈值。相反,这意味着要拥抱历史数据分析的力量,使其能够自适应,处理多维度风险场景和事件告警,因为仅仅依靠静态的孤立阈值是不够的。这种依赖性会使您面临两种不恰当的选择:过多的警报或危险的吝啬,这分别会导致警报疲劳或触发规则无效。
在现代 IT 运维中,事件可能会迅速演变成具有巨大业务影响的灾难性连锁反应,对贵公司的财务和品牌都造成影响。因此,恢复正常状态的响应和修复时间不容拖延。每一秒都至关重要——价值数千美元。对于成熟的工作流程,应实现操作自动化,并采用先发制人、指导性和预测性的方法进行规划。这正是 InfluxData 实时、全栈监控和数据分析平台与 PagerDuty 事件响应平台集成变得强大的地方。这种集成提供了技术和业务洞察的实时可见性,使利益相关者能够及时采取行动。
Kubernetes 可以从应用于告警的高保真监控数据中获益。这是因为,尽管 Kubernetes 编排会持续朝着期望的声明状态努力,但问题可能在暗中发展。因此,有必要监控并针对有问题的负载或环境问题(如网络负载、存储、服务响应时间过长等)进行先发制人的告警。
实时监控、智能告警以及针对每个事件编排适当的响应是通往卓越运营和用户体验的道路。部署正确的解决方案非常重要,而将它们集成在一起可以让您充分利用数据驱动的工作流程,无论是在运营层面还是业务层面。与基础设施和应用程序环境相关的运营目标,以及与用户体验、关键交易和请求失败相关的业务目标,都应被用于构建有效的触发规则并避免误报。利用提供全栈历史数据的时间序列平台来动态定义性能基线,对于减少告警噪音和疲劳至关重要。
InfluxData 与 PagerDuty 的集成使得可以使用数据分析和来自多个监控指标的数据关联来动态设置告警阈值和触发器。实际上,高级数据分析(如 Holt-Winters 预测)由 InfluxData 平台原生支持。这使得能够检测趋势和季节性,更重要的是,显示对高级业务 KPI 的影响,可用于定义静态和动态警报。它还提供对指标、日志、性能指标和元数据的可见性,从而为快速诊断和更快的平均故障排除时间 (MTTR) 铺平道路。
简单的静态阈值(用于基础设施和应用程序指标)必须辅以动态阈值(适用于 Kubernetes 等临时性和高度自适应环境中发现的波动,以及业务季节性和趋势)。从统计数据分析或机器学习框架中获得的洞察可以提供更智能的告警触发器。此类触发器——当与现代事件处理解决方案集成时——可以指导行动,以及执行数字运营的自动升级和优化。这意味着不仅指标,而且高保真数据也必须馈送到数据分析引擎以进行智能告警,并且必须保持“流畅”,以服务于多个框架,直至最终目标——端到端响应自动化。InfluxData 与 PagerDuty 的集成使组织能够通过应用从告警触发到整个事件生命周期管理的数据驱动的行动流程,朝着 AIOps 迈进。
了解更多关于 InfluxData 与 PagerDuty 的集成 以及关于 监控 Kubernetes 的信息。
关于 InfluxData InfluxData 是 InfluxDB 的创建者,InfluxDB 是开源时间序列数据库。该技术专为处理物联网设备、应用程序、网络、容器和计算机产生的大量时间戳数据而构建。该公司拥有 600 多家客户,其使命是帮助开发者和组织(如思科、IBM、PayPal 和特斯拉)存储和分析实时数据,使他们能够更快地构建变革性的监控、分析和物联网应用程序并进行扩展。InfluxData 总部位于旧金山,员工分布在美国各地和整个欧洲。欲了解更多信息,请访问 www.influxdata.com 并关注我们的 @InfluxDB。
关于 PagerDuty 在一个始终在线的世界中,团队信任 PagerDuty 帮助他们每次都为客户提供完美的数字体验。PagerDuty 是公司数字运营的中央神经系统。PagerDuty 实时识别问题和机会,并将合适的人聚集在一起,以便更快地响应问题并在未来预防问题。从数字颠覆者到财富 500 强公司,超过 12,000 家企业依靠 PagerDuty 帮助他们不断改进其数字运营——以便他们的团队可以减少应对事件的时间,而将更多时间用于构建未来。