目录
输入和输出集成概述
此插件可以通过 Stackdriver Monitoring API 从 Google Cloud 服务收集监控数据。 它旨在通过收集相关指标来帮助用户监控其云基础设施的性能和健康状况。
此插件使用 HTTP 将 Telegraf 指标直接发送到 Grafana 的 Mimir 数据库,为 Prometheus 兼容指标提供可扩展且高效的长期存储和分析。
集成详情
Google Cloud Stackdriver
Stackdriver Telegraf 插件允许用户使用 Cloud Monitoring API v3 从 Google Cloud Monitoring 查询时序数据。 通过此插件,用户可以轻松地将 Google Cloud 监控指标集成到其监控堆栈中。 此 API 提供了关于 Google Cloud 中运行的资源和应用程序的大量见解,包括性能、正常运行时间和运营指标。 该插件支持各种配置选项来过滤和优化检索到的数据,使用户能够根据其特定需求自定义其监控设置。 此集成有助于更顺畅地维护云资源的健康和性能,并协助团队根据历史和当前性能统计数据做出数据驱动的决策。
Mimir
Grafana Mimir 支持 Prometheus Remote Write 协议,使 Telegraf 收集的指标能够有效地摄取到 Mimir 集群中,以实现大规模、长期存储。 此集成利用 Prometheus 的成熟标准,允许用户将 Telegraf 广泛的数据收集功能与 Mimir 的高级功能相结合,例如查询联邦、多租户、高可用性和经济高效的存储。 Grafana Mimir 的架构经过优化,可处理大量指标数据并提供快速查询响应,使其成为复杂监控环境和分布式系统的理想选择。
配置
Google Cloud Stackdriver
[[inputs.stackdriver]]
## GCP Project
project = "erudite-bloom-151019"
## Include timeseries that start with the given metric type.
metric_type_prefix_include = [
"compute.googleapis.com/",
]
## Exclude timeseries that start with the given metric type.
# metric_type_prefix_exclude = []
## Most metrics are updated no more than once per minute; it is recommended
## to override the agent level interval with a value of 1m or greater.
interval = "1m"
## Maximum number of API calls to make per second. The quota for accounts
## varies, it can be viewed on the API dashboard:
## https://cloud.google.com/monitoring/quotas#quotas_and_limits
# rate_limit = 14
## The delay and window options control the number of points selected on
## each gather. When set, metrics are gathered between:
## start: now() - delay - window
## end: now() - delay
#
## Collection delay; if set too low metrics may not yet be available.
# delay = "5m"
#
## If unset, the window will start at 1m and be updated dynamically to span
## the time between calls (approximately the length of the plugin interval).
# window = "1m"
## TTL for cached list of metric types. This is the maximum amount of time
## it may take to discover new metrics.
# cache_ttl = "1h"
## If true, raw bucket counts are collected for distribution value types.
## For a more lightweight collection, you may wish to disable and use
## distribution_aggregation_aligners instead.
# gather_raw_distribution_buckets = true
## Aggregate functions to be used for metrics whose value type is
## distribution. These aggregate values are recorded in in addition to raw
## bucket counts; if they are enabled.
##
## For a list of aligner strings see:
## https://cloud.google.com/monitoring/api/ref_v3/rpc/google.monitoring.v3#aligner
# distribution_aggregation_aligners = [
# "ALIGN_PERCENTILE_99",
# "ALIGN_PERCENTILE_95",
# "ALIGN_PERCENTILE_50",
# ]
## Filters can be added to reduce the number of time series matched. All
## functions are supported: starts_with, ends_with, has_substring, and
## one_of. Only the '=' operator is supported.
##
## The logical operators when combining filters are defined statically using
## the following values:
## filter ::= {AND AND AND }
## resource_labels ::= {OR }
## metric_labels ::= {OR }
## user_labels ::= {OR }
## system_labels ::= {OR }
##
## For more details, see https://cloud.google.com/monitoring/api/v3/filters
#
## Resource labels refine the time series selection with the following expression:
## resource.labels. =
# [[inputs.stackdriver.filter.resource_labels]]
# key = "instance_name"
# value = 'starts_with("localhost")'
#
## Metric labels refine the time series selection with the following expression:
## metric.labels. =
# [[inputs.stackdriver.filter.metric_labels]]
# key = "device_name"
# value = 'one_of("sda", "sdb")'
#
## User labels refine the time series selection with the following expression:
## metadata.user_labels."" =
# [[inputs.stackdriver.filter.user_labels]]
# key = "environment"
# value = 'one_of("prod", "staging")'
#
## System labels refine the time series selection with the following expression:
## metadata.system_labels."" =
# [[inputs.stackdriver.filter.system_labels]]
# key = "machine_type"
# value = 'starts_with("e2-")'
</code></pre>
Mimir
[[outputs.http]]
url = "http://data-load-balancer-backend-1:9009/api/v1/push"
data_format = "prometheusremotewrite"
username = "*****"
password = "******"
[outputs.http.headers]
Content-Type = "application/x-protobuf"
Content-Encoding = "snappy"
X-Scope-OrgID = "****"
输入和输出集成示例
Google Cloud Stackdriver
-
将云指标集成到自定义仪表板中: 通过此插件,团队可以将来自 Google Cloud 的指标导入个性化仪表板,从而可以实时监控应用程序性能和资源利用率。 通过自定义云指标的可视化表示,运营团队可以轻松识别趋势和异常,从而在问题升级之前进行主动管理。
-
自动化警报和分析: 用户可以设置自动化警报机制,利用插件的指标来跟踪资源阈值。 此功能使团队能够通过提供即时通知来快速响应性能下降或中断,从而缩短平均恢复时间并确保持续的运营效率。
-
跨平台资源比较: 该插件可用于从各种 Google Cloud 服务中提取指标,并将它们与本地资源进行比较。 这种跨平台可见性有助于组织就资源分配和扩展策略做出明智的决策,并优化云支出与本地基础设施的对比。
-
用于容量规划的历史数据分析: 通过长期收集历史指标,该插件使团队能够进行全面的容量规划。 了解过去的性能趋势有助于准确预测资源需求,从而实现更好的预算编制和投资策略。
Mimir
-
企业级 Kubernetes 监控: 将 Telegraf 与 Grafana Mimir 集成,以企业规模流式传输来自 Kubernetes 集群的指标。 这实现了全面的可见性、改进的资源分配以及跨数百个集群的主动故障排除,从而利用 Mimir 的横向可扩展性和高可用性。
-
多租户 SaaS 应用程序可观测性: 使用此插件将来自不同 SaaS 租户的指标集中到 Grafana Mimir 中,从而实现租户隔离和基于资源使用情况的准确计费。 这种方法提供了可靠的可观测性、高效的成本管理和安全的多租户支持。
-
全球边缘网络性能跟踪: 将来自全球分布式边缘服务器的延迟和可用性指标流式传输到 Grafana Mimir 中。 组织可以快速识别性能下降或中断,利用 Mimir 的快速查询功能来确保最佳的服务可靠性和用户体验。
-
高容量微服务的实时分析: 在高容量微服务架构中实施 Telegraf 指标收集,将数据馈送到 Grafana Mimir 中以进行实时分析和异常检测。 Mimir 强大的查询功能使团队能够检测异常并快速响应,从而保持高服务可用性和性能。
反馈
感谢您成为我们社区的一份子! 如果您有任何一般性反馈或在这些页面上发现任何错误,我们欢迎并鼓励您提出意见。 请在 InfluxDB 社区 Slack 中提交您的反馈。