Google Cloud Stackdriver 和 Grafana 集成

强大的性能和简单的集成,由 InfluxData 构建的开源数据连接器 Telegraf 提供支持。

info

这不是实时大规模查询的推荐配置。 为了查询和压缩优化、高速摄取和高可用性,您可能需要考虑Stackdriver 和 InfluxDB

50 亿+

Telegraf 下载量

#1

时间序列数据库
来源:DB Engines

10 亿+

InfluxDB 下载量

2,800+

贡献者

目录

强大性能,无限扩展

收集、组织和处理海量高速数据。 当您将任何数据视为时间序列数据时,它会更有价值。 借助 InfluxDB,这个 #1 的时间序列平台,它与 Telegraf 一起构建以实现扩展。

查看入门方法

输入和输出集成概述

此插件允许通过 Stackdriver Monitoring API 从 Google Cloud 服务收集监控数据。 它旨在通过收集相关指标,帮助用户监控其云基础设施的性能和健康状况。

此插件使 Telegraf 能够将指标实时直接流式传输到 Grafana 仪表板,利用 Grafana Live 实现即时数据可视化和操作洞察。

集成详情

Google Cloud Stackdriver

Stackdriver Telegraf 插件允许用户使用 Cloud Monitoring API v3 从 Google Cloud Monitoring 查询时间序列数据。 借助此插件,用户可以轻松地将 Google Cloud 监控指标集成到他们的监控堆栈中。 此 API 提供了有关在 Google Cloud 中运行的资源和应用程序的丰富见解,包括性能、正常运行时间和操作指标。 该插件支持各种配置选项,以过滤和优化检索到的数据,使用户能够根据其特定需求自定义其监控设置。 这种集成有助于更顺畅地维护云资源的健康和性能,并协助团队根据历史和当前性能统计数据做出数据驱动的决策。

Grafana

Telegraf 可以使用 Websocket 输出插件将实时数据发送到 Grafana。 Telegraf 收集的指标会立即推送到 Grafana 仪表板,从而实现实时可视化和分析。 此插件非常适合需要低延迟、实时数据可视化的用例,例如操作监控、实时分析和即时事件响应场景。 它支持身份验证标头、可自定义的数据序列化格式(如 JSON)以及通过 TLS 的安全通信,在动态、交互式仪表板环境中提供灵活性和易于集成。

配置

Google Cloud Stackdriver

[[inputs.stackdriver]]
  ## GCP Project
  project = "erudite-bloom-151019"

  ## Include timeseries that start with the given metric type.
  metric_type_prefix_include = [
    "compute.googleapis.com/",
  ]

  ## Exclude timeseries that start with the given metric type.
  # metric_type_prefix_exclude = []

  ## Most metrics are updated no more than once per minute; it is recommended
  ## to override the agent level interval with a value of 1m or greater.
  interval = "1m"

  ## Maximum number of API calls to make per second.  The quota for accounts
  ## varies, it can be viewed on the API dashboard:
  ##   https://cloud.google.com/monitoring/quotas#quotas_and_limits
  # rate_limit = 14

  ## The delay and window options control the number of points selected on
  ## each gather.  When set, metrics are gathered between:
  ##   start: now() - delay - window
  ##   end:   now() - delay
  #
  ## Collection delay; if set too low metrics may not yet be available.
  # delay = "5m"
  #
  ## If unset, the window will start at 1m and be updated dynamically to span
  ## the time between calls (approximately the length of the plugin interval).
  # window = "1m"

  ## TTL for cached list of metric types.  This is the maximum amount of time
  ## it may take to discover new metrics.
  # cache_ttl = "1h"

  ## If true, raw bucket counts are collected for distribution value types.
  ## For a more lightweight collection, you may wish to disable and use
  ## distribution_aggregation_aligners instead.
  # gather_raw_distribution_buckets = true

  ## Aggregate functions to be used for metrics whose value type is
  ## distribution.  These aggregate values are recorded in in addition to raw
  ## bucket counts; if they are enabled.
  ##
  ## For a list of aligner strings see:
  ##   https://cloud.google.com/monitoring/api/ref_v3/rpc/google.monitoring.v3#aligner
  # distribution_aggregation_aligners = [
  #  "ALIGN_PERCENTILE_99",
  #  "ALIGN_PERCENTILE_95",
  #  "ALIGN_PERCENTILE_50",
  # ]

  ## Filters can be added to reduce the number of time series matched.  All
  ## functions are supported: starts_with, ends_with, has_substring, and
  ## one_of.  Only the '=' operator is supported.
  ##
  ## The logical operators when combining filters are defined statically using
  ## the following values:
  ##   filter ::=  {AND  AND  AND }
  ##   resource_labels ::=  {OR }
  ##   metric_labels ::=  {OR }
  ##   user_labels ::=  {OR }
  ##   system_labels ::=  {OR }
  ##
  ## For more details, see https://cloud.google.com/monitoring/api/v3/filters
  #
  ## Resource labels refine the time series selection with the following expression:
  ##   resource.labels. = 
  # [[inputs.stackdriver.filter.resource_labels]]
  #   key = "instance_name"
  #   value = 'starts_with("localhost")'
  #
  ## Metric labels refine the time series selection with the following expression:
  ##   metric.labels. = 
  #  [[inputs.stackdriver.filter.metric_labels]]
  #    key = "device_name"
  #    value = 'one_of("sda", "sdb")'
  #
  ## User labels refine the time series selection with the following expression:
  ##   metadata.user_labels."" = 
  #  [[inputs.stackdriver.filter.user_labels]]
  #    key = "environment"
  #    value = 'one_of("prod", "staging")'
  #
  ## System labels refine the time series selection with the following expression:
  ##   metadata.system_labels."" = 
  #  [[inputs.stackdriver.filter.system_labels]]
  #    key = "machine_type"
  #    value = 'starts_with("e2-")'
</code></pre>

Grafana

[[outputs.websocket]]
  ## Grafana Live WebSocket endpoint
  url = "ws://localhost:3000/api/live/push/custom_id"

  ## Optional headers for authentication
  # [outputs.websocket.headers]
  #   Authorization = "Bearer YOUR_GRAFANA_API_TOKEN"

  ## Data format to send metrics
  data_format = "influx"

  ## Timeouts (make sure read_timeout is larger than server ping interval or set to zero).
  # connect_timeout = "30s"
  # write_timeout = "30s"
  # read_timeout = "30s"

  ## Optionally turn on using text data frames (binary by default).
  # use_text_frames = false

  ## TLS configuration
  # tls_ca = "/path/to/ca.pem"
  # tls_cert = "/path/to/cert.pem"
  # tls_key = "/path/to/key.pem"
  # insecure_skip_verify = false

输入和输出集成示例

Google Cloud Stackdriver

  1. 将云指标集成到自定义仪表板中:借助此插件,团队可以将来自 Google Cloud 的指标导入个性化仪表板,从而实现对应用程序性能和资源利用率的实时监控。 通过自定义云指标的可视化表示,运营团队可以轻松识别趋势和异常,从而在问题升级之前实现主动管理。

  2. 自动化警报和分析:用户可以设置自动化警报机制,利用插件的指标来跟踪资源阈值。 这种功能使团队能够通过提供即时通知,对性能下降或中断做出快速响应,从而缩短平均恢复时间并确保持续的运营效率。

  3. 跨平台资源比较:该插件可用于从各种 Google Cloud 服务中提取指标,并将其与本地资源进行比较。 这种跨平台可见性有助于组织就资源分配和扩展策略做出明智的决策,并优化云支出与本地基础设施之间的关系。

  4. 用于容量规划的历史数据分析:通过长期收集历史指标,该插件使团队能够进行全面的容量规划。 了解过去的性能趋势有助于准确预测资源需求,从而实现更好的预算和投资策略。

Grafana

  1. 实时基础设施仪表板:部署 Telegraf 将服务器健康指标直接流式传输到 Grafana 仪表板,使 IT 团队能够实时可视化基础设施性能。 这种设置允许立即检测和响应关键系统事件。

  2. 交互式物联网监控:集成 Telegraf 收集的物联网设备指标并将实时数据推送到 Grafana,创建动态和交互式仪表板,用于监控智慧城市项目或制造过程。 这种实时可见性显着提高了响应能力和运营效率。

  3. 即时应用程序性能分析:将来自生产环境的应用程序指标实时流式传输到 Grafana 仪表板,使开发团队能够在部署期间快速检测和诊断性能瓶颈或异常,从而最大限度地减少停机时间并提高可靠性。

  4. 现场活动分析:利用 Telegraf 在大型现场活动期间捕获和流式传输实时受众或系统指标,直接传输到 Grafana 仪表板。 活动组织者可以动态监控并对不断变化的条件或趋势做出反应,从而显着提高受众参与度和运营决策水平。

反馈

感谢您成为我们社区的一份子!如果您有任何一般性反馈或在这些页面上发现任何错误,我们欢迎并鼓励您提供意见。请在 InfluxDB 社区 Slack 中提交您的反馈。

强大性能,无限扩展

收集、组织和处理海量高速数据。 当您将任何数据视为时间序列数据时,它会更有价值。 借助 InfluxDB,这个 #1 的时间序列平台,它与 Telegraf 一起构建以实现扩展。

查看入门方法

相关集成

HTTP 和 InfluxDB 集成

HTTP 插件从一个或多个 HTTP(S) 端点收集指标。它支持各种身份验证方法和数据格式的配置选项。

查看集成

Kafka 和 InfluxDB 集成

此插件从 Kafka 读取消息,并允许基于这些消息创建指标。它支持各种配置,包括不同的 Kafka 设置和消息处理选项。

查看集成

Kinesis 和 InfluxDB 集成

Kinesis 插件允许从 AWS Kinesis 流中读取指标。它支持多种输入数据格式,并提供带有 DynamoDB 的检查点功能,以实现可靠的消息处理。

查看集成