StatsD 和 Loki 集成

强大的性能和简单的集成,由 InfluxData 构建的开源数据连接器 Telegraf 提供支持。

info

这不是实时大规模查询的推荐配置。为了进行查询和压缩优化、高速摄取和高可用性,您可能需要考虑StatsD 和 InfluxDB

50 亿+

Telegraf 下载量

#1

时序数据库
来源:DB Engines

10 亿+

InfluxDB 下载量

2,800+

贡献者

目录

强大的性能,无限的扩展能力

收集、组织和处理海量高速数据。当您将任何数据视为时序数据时,它会更有价值。InfluxDB 是排名第一的时序平台,旨在通过 Telegraf 进行扩展。

查看入门方法

输入和输出集成概述

StatsD 输入插件通过在后台运行侦听器服务来捕获来自 StatsD 服务器的指标,从而实现全面的性能监控和指标聚合。

Loki 插件允许用户将日志发送到 Loki 进行聚合和查询,从而利用 Loki 高效的存储能力。

集成详情

StatsD

StatsD 输入插件旨在通过在 Telegraf 处于活动状态时运行后台 StatsD 侦听器服务,从 StatsD 服务器收集指标。此插件利用原始 Etsy 实现建立的 StatsD 消息格式,该格式允许各种类型的指标,包括仪表、计数器、集合、计时、直方图和分布。StatsD 插件的功能扩展到解析标签,并使用适应 InfluxDB 标签系统的功能扩展标准协议。它可以处理通过不同协议(UDP 或 TCP)发送的消息,有效地管理多个指标,并提供用于优化指标处理的高级配置,例如百分位数计算和数据转换模板。这种灵活性使用户能够全面跟踪应用程序性能,使其成为强大监控设置的重要工具。

Loki

此 Loki 插件与 Grafana Loki 集成,Grafana Loki 是一个强大的日志聚合系统。通过以与 Loki 兼容的格式发送日志,此插件可以高效地存储和查询日志。每个日志条目都以键值格式结构化,其中键表示字段名称,值表示相应的日志信息。按时间戳对日志进行排序可确保通过 Loki 查询时,日志流保持时间顺序。此插件对密钥的支持使安全管理身份验证参数变得更加容易,而 HTTP 标头、gzip 编码和 TLS 配置选项增强了日志传输的适应性和安全性,从而满足各种部署需求。

配置

StatsD

[[inputs.statsd]]
  ## Protocol, must be "tcp", "udp4", "udp6" or "udp" (default=udp)
  protocol = "udp"

  ## MaxTCPConnection - applicable when protocol is set to tcp (default=250)
  max_tcp_connections = 250

  ## Enable TCP keep alive probes (default=false)
  tcp_keep_alive = false

  ## Specifies the keep-alive period for an active network connection.
  ## Only applies to TCP sockets and will be ignored if tcp_keep_alive is false.
  ## Defaults to the OS configuration.
  # tcp_keep_alive_period = "2h"

  ## Address and port to host UDP listener on
  service_address = ":8125"

  ## The following configuration options control when telegraf clears it's cache
  ## of previous values. If set to false, then telegraf will only clear it's
  ## cache when the daemon is restarted.
  ## Reset gauges every interval (default=true)
  delete_gauges = true
  ## Reset counters every interval (default=true)
  delete_counters = true
  ## Reset sets every interval (default=true)
  delete_sets = true
  ## Reset timings & histograms every interval (default=true)
  delete_timings = true

  ## Enable aggregation temporality adds temporality=delta or temporality=commulative tag, and
  ## start_time field, which adds the start time of the metric accumulation.
  ## You should use this when using OpenTelemetry output.
  # enable_aggregation_temporality = false

  ## Percentiles to calculate for timing & histogram stats.
  percentiles = [50.0, 90.0, 99.0, 99.9, 99.95, 100.0]

  ## separator to use between elements of a statsd metric
  metric_separator = "_"

  ## Parses tags in the datadog statsd format
  ## http://docs.datadoghq.com/guides/dogstatsd/
  ## deprecated in 1.10; use datadog_extensions option instead
  parse_data_dog_tags = false

  ## Parses extensions to statsd in the datadog statsd format
  ## currently supports metrics and datadog tags.
  ## http://docs.datadoghq.com/guides/dogstatsd/
  datadog_extensions = false

  ## Parses distributions metric as specified in the datadog statsd format
  ## https://docs.datadoghq.com/developers/metrics/types/?tab=distribution#definition
  datadog_distributions = false

  ## Keep or drop the container id as tag. Included as optional field
  ## in DogStatsD protocol v1.2 if source is running in Kubernetes
  ## https://docs.datadoghq.com/developers/dogstatsd/datagram_shell/?tab=metrics#dogstatsd-protocol-v12
  datadog_keep_container_tag = false

  ## Statsd data translation templates, more info can be read here:
  ## https://github.com/influxdata/telegraf/blob/master/docs/TEMPLATE_PATTERN.md
  # templates = [
  #     "cpu.* measurement*"
  # ]

  ## Number of UDP messages allowed to queue up, once filled,
  ## the statsd server will start dropping packets
  allowed_pending_messages = 10000

  ## Number of worker threads used to parse the incoming messages.
  # number_workers_threads = 5

  ## Number of timing/histogram values to track per-measurement in the
  ## calculation of percentiles. Raising this limit increases the accuracy
  ## of percentiles but also increases the memory usage and cpu time.
  percentile_limit = 1000

  ## Maximum socket buffer size in bytes, once the buffer fills up, metrics
  ## will start dropping.  Defaults to the OS default.
  # read_buffer_size = 65535

  ## Max duration (TTL) for each metric to stay cached/reported without being updated.
  # max_ttl = "10h"

  ## Sanitize name method
  ## By default, telegraf will pass names directly as they are received.
  ## However, upstream statsd now does sanitization of names which can be
  ## enabled by using the "upstream" method option. This option will a) replace
  ## white space with '_', replace '/' with '-', and remove characters not
  ## matching 'a-zA-Z_\-0-9\.;='.
  #sanitize_name_method = ""

  ## Replace dots (.) with underscore (_) and dashes (-) with
  ## double underscore (__) in metric names.
  # convert_names = false

  ## Convert all numeric counters to float
  ## Enabling this would ensure that both counters and guages are both emitted
  ## as floats.
  # float_counters = false

Loki

[[outputs.loki]]
  ## The domain of Loki
  domain = "https://loki.domain.tld"

  ## Endpoint to write api
  # endpoint = "/loki/api/v1/push"

  ## Connection timeout, defaults to "5s" if not set.
  # timeout = "5s"

  ## Basic auth credential
  # username = "loki"
  # password = "pass"

  ## Additional HTTP headers
  # http_headers = {"X-Scope-OrgID" = "1"}

  ## If the request must be gzip encoded
  # gzip_request = false

  ## Optional TLS Config
  # tls_ca = "/etc/telegraf/ca.pem"
  # tls_cert = "/etc/telegraf/cert.pem"
  # tls_key = "/etc/telegraf/key.pem"

  ## Sanitize Tag Names
  ## If true, all tag names will have invalid characters replaced with
  ## underscores that do not match the regex: ^[a-zA-Z_:][a-zA-Z0-9_:]*.
  # sanitize_label_names = false

  ## Metric Name Label
  ## Label to use for the metric name to when sending metrics. If set to an
  ## empty string, this will not add the label. This is NOT suggested as there
  ## is no way to differentiate between multiple metrics.
  # metric_name_label = "__name"

输入和输出集成示例

StatsD

  1. 实时应用程序性能监控:利用 StatsD 输入插件实时监控应用程序性能指标。通过配置您的应用程序将各种指标发送到 StatsD 服务器,团队可以利用此插件动态分析性能瓶颈、跟踪用户活动并确保资源优化。历史指标和实时指标的结合允许主动排除故障,并提高问题解决过程的响应速度。

  2. 跟踪 Web 应用程序中的用户参与度指标:使用 StatsD 插件收集用户参与度统计信息,例如页面浏览量、点击事件和交互时间。通过将这些指标发送到 StatsD 服务器,企业可以深入了解用户行为,从而根据定量反馈做出数据驱动的决策,以改善用户体验和界面设计。这可以显着提高营销策略和产品开发工作的有效性。

  3. 基础设施健康监控:部署 StatsD 插件,通过跟踪资源利用率、服务器响应时间和网络性能等指标来监控服务器基础设施的健康状况。通过此设置,DevOps 团队可以详细了解系统性能,有效预测问题升级之前的情况。这使得能够采取主动的基础设施管理方法,最大限度地减少停机时间并确保最佳服务交付。

  4. 创建全面的服务仪表板:将 StatsD 与可视化工具集成,以创建全面的仪表板,反映整个架构中服务的状态和健康状况。例如,组合通过 StatsD 记录的多个服务的数据可以将原始指标转换为可操作的见解,从而展示系统性能随时间变化的趋势。此功能使利益干系人能够保持监督,并根据可视化的数据集推动决策,从而提高整体运营透明度。

Loki

  1. 微服务的集中式日志记录:利用 Loki 插件收集 Kubernetes 集群中运行的多个微服务的日志。通过将日志定向到集中式 Loki 实例,开发人员可以在一个位置监控、搜索和分析来自所有服务的日志,从而更轻松地进行故障排除和性能监控。此设置简化了操作,并支持对分布式应用程序中的问题做出快速响应。

  2. 实时日志异常检测:将 Loki 与监控工具结合使用,以实时分析日志输出中可能表明系统错误或安全威胁的异常模式。在日志流上实施异常检测使团队能够主动识别和响应事件,从而提高系统可靠性并增强安全态势。

  3. 通过 Gzip 压缩增强日志处理:配置 Loki 插件以利用 gzip 压缩进行日志传输。这种方法可以减少带宽使用并提高传输速度,这在网络带宽可能受到限制的环境中尤其有利。它对于高容量日志记录应用程序特别有用,在这些应用程序中,每个字节都很重要,并且性能至关重要。

  4. 通过自定义标头支持多租户:利用添加自定义 HTTP 标头的功能来隔离多租户应用程序环境中的不同租户的日志。通过使用 Loki 插件为每个租户发送不同的标头,运营商可以确保正确的日志管理并遵守数据隔离要求,使其成为 SaaS 应用程序的通用解决方案。

反馈

感谢您成为我们社区的一份子!如果您有任何一般性反馈或在这些页面上发现任何错误,我们欢迎并鼓励您提出意见。请在InfluxDB 社区 Slack中提交您的反馈。

强大的性能,无限的扩展能力

收集、组织和处理海量高速数据。当您将任何数据视为时序数据时,它会更有价值。InfluxDB 是排名第一的时序平台,旨在通过 Telegraf 进行扩展。

查看入门方法

相关集成

HTTP 和 InfluxDB 集成

HTTP 插件从一个或多个 HTTP(S) 端点收集指标。它支持各种身份验证方法和数据格式的配置选项。

查看集成

Kafka 和 InfluxDB 集成

此插件从 Kafka 读取消息,并允许根据这些消息创建指标。它支持各种配置,包括不同的 Kafka 设置和消息处理选项。

查看集成

Kinesis 和 InfluxDB 集成

Kinesis 插件允许从 AWS Kinesis 流中读取指标。它支持多种输入数据格式,并提供带有 DynamoDB 的检查点功能,以实现可靠的消息处理。

查看集成