使用 Grafana 和 InfluxDB Cloud Serverless 进行告警
作者:Anais Dotis-Georgiou / 产品
2023 年 8 月 30 日
导航至
本文最初发表于 The New Stack,并经许可在此处转载。
将这两个平台结合使用,可以为实时数据监控和告警提供高效、可扩展且可定制的工具。
在数据分析和可视化领域,拥有一个不仅可以有效监控您的数据,还可以就可能出现的任何潜在差异或异常情况向您发出警报的系统至关重要。Grafana 和 InfluxDB Cloud Serverless 是一组强大的工具,使您能够监控和告警 时间序列数据。Grafana 是一个流行的开源数据可视化平台,而 InfluxDB Cloud 是一个基于 Apache 生态系统构建的时间序列平台。
将这两个平台结合使用,可以为实时 数据监控 和告警提供高效、可扩展且可定制的工具。这篇博文将指导您完成使用 Grafana 和 InfluxDB Cloud Serverless 平台创建富有洞察力的警报的过程,为您提供一个强大的系统,让您随时了解情况,并在您的数据表现出意外行为时做好采取行动的准备。
要求
以下教程假定您满足以下要求
- 您的机器上安装了 Telegraf
- 一个 InfluxDB Cloud Serverless 账户
- 一个本地 Grafana 或 Grafana Cloud 实例
在本示例中,我们将使用 Telegraf 将 CPU 指标 写入 InfluxDB Cloud。我选择此数据集仅是为了演示如何使用 Grafana 进行告警,但您可以使用任何您想要的 Telegraf 插件或数据集。请按照此文档配置您的 Telegraf 代理。或者,您可以按照这篇博文中的说明,使用 InfluxDB UI 配置 Telegraf。(请注意,虽然该文章引用的是 InfluxDB 2.x,但用于配置 Telegraf 的 UX 在 InfluxDB Cloud 3.0 中是相同的)。
您也可以按照以下步骤从 UI 配置 Telegraf 代理
- 在主页上,单击添加数据。
- 在 Telegraf 报告代理 下,选择配置代理。
- 单击 + 创建配置。
- 选择一个要将数据写入的存储桶(我已经创建了一个名为“cpu”的存储桶)。
- 搜索并选择 CPU 插件。
- 按照弹出的说明操作。
接下来,我验证了我可以使用 数据浏览器 成功地从 InfluxDB Cloud 3.0 查询数据
使用 Grafana 查询和可视化数据
在我们使用 Grafana 进行告警之前,我们必须首先查询和可视化我们的数据。请按照此文档了解如何
- 开始使用 Grafana。
- 创建和配置 Flight SQL 数据源。
- 使用 Grafana 查询 InfluxDB。
在本教程中,我使用了 Grafana Cloud 免费试用版。如果您导航到 Explore 页面,则可以在 Grafana 中创建一个查询,以验证您是否已成功配置 Flight SQL 插件。请确保选择 Flight SQL 作为您的源。
设置 Grafana 告警
这篇文章介绍了如何设置 Grafana 的最基本告警。但是,Grafana 具有高级告警功能。要了解有关 Grafana 中这些高级告警功能的更多信息,请参阅以下文档。虽然 UI 有一些更改,但我还是按照本教程开始入门。
首先,从 主页 > 告警和 IRM > 告警 导航到告警页面。从那里,转到 管理告警规则。
添加新规则。
查询您的数据以选择告警的条件。
对于此告警,我只选择了总 CPU 的 usage_system 数据。验证您是否在查询构建器下方的图表中获得了正确的数据。然后选择您希望用来减少数据的函数以及您要为告警条件创建的任何阈值。对于本示例,我选择了最后一个值,并将阈值设置为高于 0 以测试告警。
设置告警评估行为,或您希望告警运行的频率。确保还将您的告警分配给一个评估组。
要将告警发送到电子邮件或 Slack 等联系点,请导航到 告警和 IRM 下的 联系点 页面。单击 + 添加联系点。
测试告警的最简单方法可能是通过电子邮件。但是,您也可以加入我们的 InfluxDB 社区 Slack 频道。有一个 #notifications-testing 频道,其中包含 此 Webhook URL,如果您想测试 Slack 通知,可以使用该 URL。
单击 测试 以测试您的告警,并验证您是否在 InfluxDB 社区 Slack 频道或您的电子邮件中收到了消息。
最终想法
Grafana 是一款强大的可视化和告警工具。虽然本教程只是浅尝辄止地介绍了 Grafana 和 InfluxDB 的可能性,但值得进一步探索它们,看看它们如何改进您的工作流程和业务运营。