目录
Apache Aurora 的核心是一个用于长时间运行的服务、应用程序和 cron 作业的框架。除了负责在共享机器池中运行应用程序和服务之外,Aurora 还负责保持它们的运行 - 无论发生什么。即使某些机器开始出现故障,Aurora 也能够智能地将这些作业重新调度到健康的机器上,从而保证整体的性能和完整性。
在更新作业时,Aurora 还会检测部署的健康状况和状态,并在必要时自动回滚到更稳定的状态。Aurora 还包含一个创新的配额系统,以帮助为您的所有特定关键应用程序提供资源保证。它甚至可以支持多用户部署服务。
为什么为 Apache Aurora 使用 Telegraf 插件?
Apache Aurora Telegraf 插件旨在收集来自 Apache Aurora 调度器的所有重要指标,并以可视化的方式排列,使其易于组织中的任何人理解。不仅如此,它还充当您所有基本指标和相关数据的完整一站式商店,以便您可以轻松访问所需的信息,从而始终在给定情况下做出最佳决策。
如何使用 Telegraf 插件监控 Apache Aurora
值得庆幸的是,配置 Apache Aurora Telegraf 插件的过程非常简单。可以使用 inputs.aurora 插件 ID 非常简单地添加它。然后,它将从任何可用的 Apache Aurora 调度器收集您选择的所有指标。请注意,调度器本身将通过其内置 HTTP 接口公开大量的检测数据。要快速了解当前发生的情况,请使用以下命令
$ vagrant ssh -c 'curl -s localhost:8081/vars | head'
您可以使用 Apache Aurora Telegraf 插件收集的一些可用指标包括超时、基本身份验证,甚至可选的 TLS 配置。
一旦您正确设置了 Apache Aurora Telegraf 插件,您就可以立即开始将您的指标放入您的 InfluxDB 实例以供进一步审查。
用于监控的关键 Apache Aurora 指标
如前所述,Apache Aurora Telegraf 插件如果不是多功能,那就什么都不是——这意味着您可以根据需要使用它来主动监控部署的许多不同元素。其中一些包括
- 标签,包括调度器的 URL 和角色(意味着它是领导者还是追随者)。
- 字段。这些是从 /vars 端点收集的数字指标。请注意,在此过程中实际上并未收集字符串字段。
JVM_uptime_secs
。这使您可以查看 JVM 进程已运行的秒数。System_load_avg
。这显示了系统的当前平均负载,取自过去一分钟收集的数据。Process_CPU_cores_utilized
. 这显示了 JVM 进程当前正在使用的 CPU 核心数。请注意,为了获得最佳结果,这绝不应超过机器上实际存在的逻辑 CPU 核心数。