为什么您需要一个集中式监控方法

导航至

这篇文章最初发表在 The New Stack 上,在此经许可重发。

在组织内部建立一种标准的监控数据模式,不同的团队可以共同使用基础架构并从中获取最大价值。

centralized-monitoring

图片来自 Pixabay

监控(有时也称为可观察性)涉及在一段时间内从源收集和分析数据以跟踪其健康和/或性能。由于变化是随时间发生的,几乎所有监控数据都是 时序数据,这意味着它具有时间戳。因此,当任何人谈论监控数据时,他们默认是在谈论时序数据。

在一个组织内部,通常可以发现多个团队各自拥有自己的 监控解决方案。例如,一些可能将监控数据存储在关系型数据库中,而另一些则使用更适合这种时序数据的东西——时序数据库。一些团队使用比其他团队更有效的工具,即使在同一组织内,这也反映了组织壁垒的问题。

这些通常反映了组织结构以及组织内部投资批准的方式。然而,这种既定的工作方式创造了采购和部署成本的重叠,当处理数据本身时,也可能产生低效率。

每个使用监控数据的团队或角色对数据有不同的需求,这使得数据本身成为一种资产。但利益相关者需要分析数据以从中获得价值。通过重复使用和重新利用数据,例如在制造工厂中作为原材料,为其他用途产生更多的价值。如果某个团队在专有解决方案中存储数据,他们将限制该组织中其他所有团队的能力。

为了充分利用收集到的数据,同时及时解决所有监控数据用户的需求,工程团队正在采用集中式监控方法,采用“度量作为服务”模式。

指标即服务(MaaS)是一种组织数据管理方法,公司在此方法中将监控数据存储在中央位置,以便不同的利益相关者可以轻松访问。通过在组织内提供监控数据的标准模型,不同的团队可以使用通用基础设施并从收集的数据中提取最大价值。这种方法避免了信息孤岛和供应商锁定,提供了更好的投资回报率(ROI),并让人们有更多时间从事高价值任务。

监控数据利益相关者

要构建MaaS解决方案,了解利益相关者是谁以及他们如何使用监控数据非常重要。我们可以识别至少三个通常处理此类数据的关键群体。

IT运营

这些用户关心生产环境的安全、可用性和可靠性。因此,他们需要了解资源消耗、监控系统健康状况和状态,并使用诊断数据以快速恢复。监控数据来自各种来源,以确保底层计算和网络基础设施功能正常且能够满足其上运行的应用程序的需求。

IT运营监控的主要关注点包括但不限于以下内容:

  • 物理设备、操作系统和虚拟机
  • 容器化和容器化服务的编排
  • 网络和网状服务

应用开发者

这一组用户主要关注敏捷性和性能。为了深入了解这些领域,开发者需要有关系统和系统内部可观察性、跟踪和端到端体验的细粒度数据。

应用开发者关注的问题包括

  • 应用程序及其依赖项的性能表现如何
  • 将新代码推出所需的时间有多长
  • 他们可以多快找到问题的根本原因并恢复功能状态

通过控制代码,开发者可以轻松地公开应用自定义指标、推送事件、生成日志和跟踪延迟,以满足其观察需求。一旦公开,开发者需要一种方法来摄取、可视化、分析和存储这些数据,这要求有高性能的读写操作。开发者使用这些数据来构建有效解决方案,故障率最低。

业务经理

这个群体试图发现影响利润和增长的趋势,并寻找提高效率和效能的机会。为了实现这一目标,业务经理和数据工程师依赖于监控交易动态、用户活动和业务成果的动态以及与其他业务维度的相关性。

衡量成功依赖于关键绩效指标(KPI),这些指标告知利益相关者事情进行得如何,甚至可以揭示如何取得更好的结果。生成输入以供KPI使用需要执行相关性、聚合、求和和跨测量和多个数据源的操作的高级分析。跨组合因素处理数据反映了影响业务指标的系统复杂性,并呈现了一个更全面的图景。

总体目标是保持业务增长的积极趋势,并确保服务水平协议(SLA)和服务级别目标(SLO)得到控制。

构建指标即服务产品

虽然每个角色对监控数据的要求都不同,但我们可以看到它们联合的需求涵盖了从支持应用程序的基础设施,到实际应用程序的功能,再到这些应用程序的最终用户体验的全谱系。一切都有联系,因此可以合理地认为,每个小组的监控数据都会对其他小组产生影响。

这种相互关联性正是MaaS解决方案有意义的根本原因。这种模型的一个吸引力在于,它将监控相关的成本转化为信息投资,公司可以从中获益。

这比传统的针对孤立、成本高昂的监控解决方案的狭窄焦点预算审批迈出了重大步伐。由于“指标即服务”模式触及了这些不同的群体,要充分发挥其潜力,就不能仅通过点解决方案有效实施。它需要专门构建的时间序列平台的可扩展性、性能和功能,例如时间序列平台

任何“指标即服务”解决方案都是从数据收集开始的。它应该能够从任何来源收集数据,并支持推送和拉取方法。像Telegraf这样的开源数据收集代理有数百个插件,因此可以处理几乎任何数据源。

Telegraf是一个轻量级工具,因此它可以在传统基础设施上运行,也可以在边缘设备或容器和虚拟机上运行。这种灵活性使其非常适合监控相关方的不同需求。

收集到的数据需要有一个存放的地方,而用于存储这些数据的最佳工具是时间序列数据库。像InfluxDB这样的专用时间序列数据库提供多种部署选项,包括自托管和全面托管的云服务。它与Telegraf无缝集成,以创建高效、耐用和可靠的数据管道。

同样重要的是,InfluxDB可以使用Telegraf将数据输出到广泛的目的地源,并且它还公开HTTP端点,以便广泛的用户访问数据库中存储的数据。

有了这两个工具,每个小组都可以设置自己的Telegraf实例来收集所需的数据,并将其发送到InfluxDB实例中的单独数据桶。这种方法允许每个小组在InfluxDB平台上创建隔离的数据管道,但由于他们所有数据都存储在InfluxDB中,因此用户可以从他们有权访问的任何桶中查询数据。

从数据中创造价值

“指标即服务”模型带来的变化不仅限于数据集中化。它将监控数据从战术和偶然的决策过程转移到组织的战略规划层面。这种转变从根本上影响了管理者、提供者和消费者对监控数据的看法,因为它引发了由

  • ROI:这是基于数据对业务绩效影响来量化数据价值的能力。这个领域的潜在结果是将IT变成利润中心的机会。
  • 责任:增加了与ROI方法一致的监控请求的数据消费可见性。

利益相关者需要处理、分析和可视化他们的监控数据,以更好地理解它,并从中提取洞察力和价值。InfluxDB提供了多种查询数据的方式,包括SQLFlux语言(InfluxDB的本地脚本语言)。

InfluxDB具有本机仪表板和可视化工具,但用户还可以利用与Grafana等工具的第三方集成来创建可视化。该平台还提供了Restful API,允许用户对数据有细粒度的控制,并具有将平台的扩展能力扩展到其他应用程序和系统的灵活性。

结论

使用时间序列平台构建度量即服务解决方案时,这只是冰山一角。但作为一个广泛的框架,这种方法在各个行业和用例中都适用。利用专门的时间序列平台处理关键时间序列数据,对所有利益相关者都有益,因为它简化了从数据中创造价值的过程。

此外,基于开源的平台,如InfluxDB,为组织内整合监控解决方案提供了一种经济实惠的方式。InfluxDB等平台的灵活性也简化了数据集中的过程,鼓励跨职能协作和创新,并使数据访问民主化,以便关键利益相关者能够获得他们需要的信息来做出有利于组织的决策。