使用 Grafana 和 InfluxDB Cloud 3.0 的死亡警报

导航至

在监控系统中标记故障或不活动对于维护运营可靠性至关重要。本博客将指导您如何使用 Grafana 和 InfluxDB Cloud 设置死亡警报,这些工具可以帮助您在问题变得关键之前检测到问题。我们将集成 Grafana 的可视化功能与 InfluxDB Cloud 的数据管理功能,以创建一个强大的监控系统。在本指南结束时,您将了解如何配置和使用这些工具,以确保系统平稳运行。

本教程是《使用 Grafana 和 InfluxDB Cloud Serverless 配置阈值警报》的后续教程,该教程介绍了如何在 Grafana 中使用 InfluxDB Cloud 的数据配置阈值警报。该文章利用了 Flight SQL 数据源,您仍然可以使用它连接到 InfluxDB Cloud 3.0。然而,Grafana 已经发布了官方的 InfluxDB v3 数据源 [链接],本教程使用的是这个数据源。

要求

要跟随本教程,您需要以下内容

  • 在您的机器上安装了 Telegraf 实例
  • 拥有 InfluxDB Cloud Serverless 账户
  • 本地 Grafana 或 Grafana Cloud 实例

在这个示例中,我们将使用 Telegraf 将 CPU 指标 写入 InfluxDB 云服务。我选择这个数据集仅是为了演示如何使用 Grafana 发出警报,但你也可以使用任何你想要的 Telegraf 插件 或数据集。根据以下 文档 配置你的 Telegraf 代理。或者,你也可以按照 这篇博客文章 中的说明使用 InfluxDB UI 配置 Telegraf。(注意,虽然文章中提到了 InfluxDB 2.x,但在 InfluxDB Cloud 3.0 中配置 Telegraf 的用户体验是相同的)。

你还可以按照以下步骤从 UI 配置 Telegraf 代理

  • 从主页点击 添加数据
  • Telegraf 报告代理 下,选择 配置代理
  • 点击 + 创建配置
  • 选择要写入数据的目标 bucket(我已经创建了一个名为“cpu”的 bucket)
  • 搜索并选择 CPU 插件
  • 遵循弹出的说明

接下来,我验证了能否成功使用 数据探索器 从 InfluxDB Cloud 3.0 查询数据。

因为我们将要创建一个死男人警报,技术上你甚至不需要向 Grafana 发送任何数据。

在 Grafana 中设置 InfluxDB v3 数据源

要在 Grafana 中设置 InfluxDB v3 数据源,请按照以下步骤操作。首先,转到 数据源 页面并搜索 InfluxDB。

然后选择 InfluxDB 并进行配置。这意味着包括你想要查询数据和监控的数据库、认证令牌和 URL。


一旦成功配置了 InfluxDB 数据源,你就可以通过在仪表板中构建一个面板来测试它。在这里,我们正在查询 usage_system 和 time 列。我们将在这些数据上创建一个死男人警报。

在 Grafana 中配置死男人警报

现在我们已经成功将 Grafana 连接到 InfluxDB Cloud 3.0,我们可以配置一个死男人警报。导航到 警报 & IRM

接下来,选择 警报 > 警报规则 > 新建警报规则,并开始通过提供规则名称来配置你的死男人警报。

现在定义查询和警报条件。我们查询的数据与上面构建可视化时相同。

为了创建死男人表达式,我们可以计算值并设置一个阈值,当计数小于 1 时,我们知道我们没有返回任何数据。

接下来,设置评估行为。为了测试目的,我们将每 1 分钟运行此测试,以确保我们成功收到死男人警报。

现在我们可以配置标签和通知。我们将使用通过Influx Community Slack组织下的#notifications频道提供的公共webhook URL。

最后,我们可以配置注释。对于这个例子,“没有数据传入”就足够了。

保存警报并停止Telegraf代理后,我们在#notifications频道成功接收了“无数据”警报。

恭喜!您已成功在Grafana中配置了来自InfluxDB Cloud 3.0的数据的Deadman警报。

最后的想法

Grafana是一个强大的可视化和警报工具。虽然这篇教程仅触及了Grafana和InfluxDB可能性的皮毛,但值得进一步探索它们如何改进您的流程和业务运营。一如既往,从这里开始了解InfluxDB Cloud 3.0。如果您需要帮助,请联系我们的社区网站Slack频道