StatsD 和 Mimir 集成

强大性能,轻松集成,由 InfluxData 构建的开源数据连接器 Telegraf 提供支持。

info

对于大规模实时查询,这不是推荐的配置。为了优化查询和压缩、高速摄取以及高可用性,您可能需要考虑 StatsD 和 InfluxDB

50 亿+

Telegraf 下载量

#1

时序数据库
来源:DB Engines

10 亿+

InfluxDB 下载量

2,800+

贡献者

目录

强大性能,无限扩展

收集、组织和处理海量高速数据。当您将任何数据视为时序数据时,它都更有价值。借助 InfluxDB,这个排名第一的时序平台可以与 Telegraf 一起扩展。

查看入门方法

输入和输出集成概述

StatsD 输入插件通过在后台运行监听器服务来捕获来自 StatsD 服务器的指标,从而实现全面的性能监控和指标聚合。

此插件使用 HTTP 将 Telegraf 指标直接发送到 Grafana 的 Mimir 数据库,为 Prometheus 兼容指标提供可扩展且高效的长期存储和分析。

集成详情

StatsD

StatsD 输入插件旨在通过在 Telegraf 处于活动状态时运行后台 StatsD 监听器服务,从 StatsD 服务器收集指标。此插件利用原始 Etsy 实现建立的 StatsD 消息格式,该格式允许各种类型的指标,包括 gauges(仪表)、counters(计数器)、sets(集合)、timings(计时)、histograms(直方图)和 distributions(分布)。StatsD 插件的功能扩展到解析标签,并使用适应 InfluxDB 标签系统的功能扩展标准协议。它可以处理通过不同协议(UDP 或 TCP)发送的消息,有效管理多个指标,并提供用于优化指标处理的高级配置,例如百分位数计算和数据转换模板。这种灵活性使使用者能够全面跟踪应用程序性能,使其成为强大监控设置的重要工具。

Mimir

Grafana Mimir 支持 Prometheus Remote Write 协议,使 Telegraf 收集的指标能够有效地摄取到 Mimir 集群中,以进行大规模长期存储。此集成利用 Prometheus 的成熟标准,让使用者能够将 Telegraf 广泛的数据收集功能与 Mimir 的高级功能相结合,例如查询联合、多租户、高可用性和经济高效的存储。Grafana Mimir 的架构经过优化,可处理大量指标数据并提供快速查询响应,使其成为复杂监控环境和分布式系统的理想选择。

配置

StatsD

[[inputs.statsd]]
  ## Protocol, must be "tcp", "udp4", "udp6" or "udp" (default=udp)
  protocol = "udp"

  ## MaxTCPConnection - applicable when protocol is set to tcp (default=250)
  max_tcp_connections = 250

  ## Enable TCP keep alive probes (default=false)
  tcp_keep_alive = false

  ## Specifies the keep-alive period for an active network connection.
  ## Only applies to TCP sockets and will be ignored if tcp_keep_alive is false.
  ## Defaults to the OS configuration.
  # tcp_keep_alive_period = "2h"

  ## Address and port to host UDP listener on
  service_address = ":8125"

  ## The following configuration options control when telegraf clears it's cache
  ## of previous values. If set to false, then telegraf will only clear it's
  ## cache when the daemon is restarted.
  ## Reset gauges every interval (default=true)
  delete_gauges = true
  ## Reset counters every interval (default=true)
  delete_counters = true
  ## Reset sets every interval (default=true)
  delete_sets = true
  ## Reset timings & histograms every interval (default=true)
  delete_timings = true

  ## Enable aggregation temporality adds temporality=delta or temporality=commulative tag, and
  ## start_time field, which adds the start time of the metric accumulation.
  ## You should use this when using OpenTelemetry output.
  # enable_aggregation_temporality = false

  ## Percentiles to calculate for timing & histogram stats.
  percentiles = [50.0, 90.0, 99.0, 99.9, 99.95, 100.0]

  ## separator to use between elements of a statsd metric
  metric_separator = "_"

  ## Parses tags in the datadog statsd format
  ## http://docs.datadoghq.com/guides/dogstatsd/
  ## deprecated in 1.10; use datadog_extensions option instead
  parse_data_dog_tags = false

  ## Parses extensions to statsd in the datadog statsd format
  ## currently supports metrics and datadog tags.
  ## http://docs.datadoghq.com/guides/dogstatsd/
  datadog_extensions = false

  ## Parses distributions metric as specified in the datadog statsd format
  ## https://docs.datadoghq.com/developers/metrics/types/?tab=distribution#definition
  datadog_distributions = false

  ## Keep or drop the container id as tag. Included as optional field
  ## in DogStatsD protocol v1.2 if source is running in Kubernetes
  ## https://docs.datadoghq.com/developers/dogstatsd/datagram_shell/?tab=metrics#dogstatsd-protocol-v12
  datadog_keep_container_tag = false

  ## Statsd data translation templates, more info can be read here:
  ## https://github.com/influxdata/telegraf/blob/master/docs/TEMPLATE_PATTERN.md
  # templates = [
  #     "cpu.* measurement*"
  # ]

  ## Number of UDP messages allowed to queue up, once filled,
  ## the statsd server will start dropping packets
  allowed_pending_messages = 10000

  ## Number of worker threads used to parse the incoming messages.
  # number_workers_threads = 5

  ## Number of timing/histogram values to track per-measurement in the
  ## calculation of percentiles. Raising this limit increases the accuracy
  ## of percentiles but also increases the memory usage and cpu time.
  percentile_limit = 1000

  ## Maximum socket buffer size in bytes, once the buffer fills up, metrics
  ## will start dropping.  Defaults to the OS default.
  # read_buffer_size = 65535

  ## Max duration (TTL) for each metric to stay cached/reported without being updated.
  # max_ttl = "10h"

  ## Sanitize name method
  ## By default, telegraf will pass names directly as they are received.
  ## However, upstream statsd now does sanitization of names which can be
  ## enabled by using the "upstream" method option. This option will a) replace
  ## white space with '_', replace '/' with '-', and remove characters not
  ## matching 'a-zA-Z_\-0-9\.;='.
  #sanitize_name_method = ""

  ## Replace dots (.) with underscore (_) and dashes (-) with
  ## double underscore (__) in metric names.
  # convert_names = false

  ## Convert all numeric counters to float
  ## Enabling this would ensure that both counters and guages are both emitted
  ## as floats.
  # float_counters = false

Mimir

[[outputs.http]]
  url = "http://data-load-balancer-backend-1:9009/api/v1/push"
  data_format = "prometheusremotewrite"
  username = "*****"
  password = "******"
  [outputs.http.headers]
     Content-Type = "application/x-protobuf"
     Content-Encoding = "snappy"
     X-Scope-OrgID = "****"

输入和输出集成示例

StatsD

  1. 实时应用程序性能监控:使用 StatsD 输入插件实时监控应用程序性能指标。通过配置应用程序将各种指标发送到 StatsD 服务器,团队可以利用此插件动态分析性能瓶颈、跟踪用户活动并确保资源优化。历史指标和实时指标的结合有助于主动故障排除,并提高问题解决流程的响应速度。

  2. 跟踪 Web 应用程序中的用户参与度指标:使用 StatsD 插件收集用户参与度统计信息,例如页面浏览量、点击事件和互动时间。通过将这些指标发送到 StatsD 服务器,企业可以深入了解用户行为,从而根据定量反馈做出数据驱动的决策,以改善用户体验和界面设计。这可以显著提高营销策略和产品开发工作的有效性。

  3. 基础设施健康监控:部署 StatsD 插件,通过跟踪资源利用率、服务器响应时间和网络性能等指标来监控服务器基础设施的健康状况。通过这种设置,DevOps 团队可以详细了解系统性能,有效预测升级前的问题。这实现了基础设施管理的主动方法,最大限度地减少停机时间并确保最佳服务交付。

  4. 创建全面的服务仪表板:将 StatsD 与可视化工具集成,以创建全面的仪表板,反映整个架构中服务的状态和健康状况。例如,结合通过 StatsD 记录的来自多个服务的数据,可以将原始指标转换为可操作的见解,从而展示系统性能随时间变化的趋势。这种能力使利益相关者能够保持监督,并根据可视化的数据集推动决策,从而提高整体运营透明度。

Mimir

  1. 企业级 Kubernetes 监控:将 Telegraf 与 Grafana Mimir 集成,以企业级规模从 Kubernetes 集群流式传输指标。这实现了跨数百个集群的全面可见性、改进的资源分配和主动故障排除,从而利用了 Mimir 的水平可扩展性和高可用性。

  2. 多租户 SaaS 应用程序可观测性:使用此插件将来自不同 SaaS 租户的指标集中到 Grafana Mimir 中,从而实现租户隔离和基于资源使用情况的准确计费。这种方法提供可靠的可观测性、高效的成本管理和安全的多租户支持。

  3. 全球边缘网络性能跟踪:将来自全球分布式边缘服务器的延迟和可用性指标流式传输到 Grafana Mimir 中。组织可以快速识别性能下降或中断,利用 Mimir 的快速查询功能来确保最佳服务可靠性和用户体验。

  4. 高容量微服务的实时分析:在高容量微服务架构中实施 Telegraf 指标收集,将数据馈送到 Grafana Mimir 中,以进行实时分析和异常检测。Mimir 强大的查询功能使团队能够检测异常并快速响应,从而保持高服务可用性和性能。

反馈

感谢您成为我们社区的一份子!如果您有任何一般性反馈或在这些页面上发现了任何错误,我们欢迎并鼓励您提出意见。请在 InfluxDB 社区 Slack 中提交您的反馈。

强大性能,无限扩展

收集、组织和处理海量高速数据。当您将任何数据视为时序数据时,它都更有价值。借助 InfluxDB,这个排名第一的时序平台可以与 Telegraf 一起扩展。

查看入门方法

相关集成

HTTP 和 InfluxDB 集成

HTTP 插件从一个或多个 HTTP(S) 端点收集指标。它支持各种身份验证方法和数据格式的配置选项。

查看集成

Kafka 和 InfluxDB 集成

此插件从 Kafka 读取消息,并允许根据这些消息创建指标。它支持各种配置,包括不同的 Kafka 设置和消息处理选项。

查看集成

Kinesis 和 InfluxDB 集成

Kinesis 插件允许从 AWS Kinesis 流中读取指标。它支持多种输入数据格式,并提供 DynamoDB 的检查点功能,以实现可靠的消息处理。

查看集成