目录
强大的性能,无限的扩展能力
收集、组织和处理海量高速数据。当您将任何数据视为时间序列数据时,它会更有价值。使用 InfluxDB,这是 #1 的时间序列平台,旨在与 Telegraf 一起扩展。
查看入门方法
输入和输出集成概述
StatsD 输入插件通过在后台运行侦听器服务来捕获来自 StatsD 服务器的指标,从而实现全面的性能监控和指标聚合。
此输出插件有助于通过 HTTP Event Collector 将 Telegraf 收集的指标直接流式传输到 Splunk 中,从而轻松与 Splunk 强大的分析平台集成。
集成详情
StatsD
StatsD 输入插件旨在通过在 Telegraf 处于活动状态时运行后台 StatsD 侦听器服务,从 StatsD 服务器收集指标。此插件利用原始 Etsy 实施建立的 StatsD 消息格式,该格式允许各种类型的指标,包括 gauges、counters、sets、timings、histograms 和 distributions。StatsD 插件的功能扩展到解析标签,并使用可适应 InfluxDB 标记系统的功能扩展标准协议。它可以处理通过不同协议(UDP 或 TCP)发送的消息,有效管理多个指标,并为最佳指标处理提供高级配置,例如百分位数计算和数据转换模板。这种灵活性使使用者能够全面跟踪应用程序性能,使其成为强大监控设置的必备工具。
Splunk
使用 Telegraf 可以轻松地从许多不同的来源收集和聚合指标,并将它们发送到 Splunk。通过结合使用 HTTP 输出插件和专门的 Splunk 指标序列化器,此配置可确保高效地将数据摄取到 Splunk 的指标索引中。HEC 是 Splunk 提供的一种高级机制,旨在通过 HTTP 或 HTTPS 可靠地大规模收集数据,为安全性、监控和分析工作负载提供关键功能。Telegraf 与 Splunk HEC 的集成通过利用标准 HTTP 协议、内置身份验证和结构化数据序列化来简化操作,从而优化指标摄取并实现即时可操作的见解。
配置
StatsD
[[inputs.statsd]]
## Protocol, must be "tcp", "udp4", "udp6" or "udp" (default=udp)
protocol = "udp"
## MaxTCPConnection - applicable when protocol is set to tcp (default=250)
max_tcp_connections = 250
## Enable TCP keep alive probes (default=false)
tcp_keep_alive = false
## Specifies the keep-alive period for an active network connection.
## Only applies to TCP sockets and will be ignored if tcp_keep_alive is false.
## Defaults to the OS configuration.
# tcp_keep_alive_period = "2h"
## Address and port to host UDP listener on
service_address = ":8125"
## The following configuration options control when telegraf clears it's cache
## of previous values. If set to false, then telegraf will only clear it's
## cache when the daemon is restarted.
## Reset gauges every interval (default=true)
delete_gauges = true
## Reset counters every interval (default=true)
delete_counters = true
## Reset sets every interval (default=true)
delete_sets = true
## Reset timings & histograms every interval (default=true)
delete_timings = true
## Enable aggregation temporality adds temporality=delta or temporality=commulative tag, and
## start_time field, which adds the start time of the metric accumulation.
## You should use this when using OpenTelemetry output.
# enable_aggregation_temporality = false
## Percentiles to calculate for timing & histogram stats.
percentiles = [50.0, 90.0, 99.0, 99.9, 99.95, 100.0]
## separator to use between elements of a statsd metric
metric_separator = "_"
## Parses tags in the datadog statsd format
## http://docs.datadoghq.com/guides/dogstatsd/
## deprecated in 1.10; use datadog_extensions option instead
parse_data_dog_tags = false
## Parses extensions to statsd in the datadog statsd format
## currently supports metrics and datadog tags.
## http://docs.datadoghq.com/guides/dogstatsd/
datadog_extensions = false
## Parses distributions metric as specified in the datadog statsd format
## https://docs.datadoghq.com/developers/metrics/types/?tab=distribution#definition
datadog_distributions = false
## Keep or drop the container id as tag. Included as optional field
## in DogStatsD protocol v1.2 if source is running in Kubernetes
## https://docs.datadoghq.com/developers/dogstatsd/datagram_shell/?tab=metrics#dogstatsd-protocol-v12
datadog_keep_container_tag = false
## Statsd data translation templates, more info can be read here:
## https://github.com/influxdata/telegraf/blob/master/docs/TEMPLATE_PATTERN.md
# templates = [
# "cpu.* measurement*"
# ]
## Number of UDP messages allowed to queue up, once filled,
## the statsd server will start dropping packets
allowed_pending_messages = 10000
## Number of worker threads used to parse the incoming messages.
# number_workers_threads = 5
## Number of timing/histogram values to track per-measurement in the
## calculation of percentiles. Raising this limit increases the accuracy
## of percentiles but also increases the memory usage and cpu time.
percentile_limit = 1000
## Maximum socket buffer size in bytes, once the buffer fills up, metrics
## will start dropping. Defaults to the OS default.
# read_buffer_size = 65535
## Max duration (TTL) for each metric to stay cached/reported without being updated.
# max_ttl = "10h"
## Sanitize name method
## By default, telegraf will pass names directly as they are received.
## However, upstream statsd now does sanitization of names which can be
## enabled by using the "upstream" method option. This option will a) replace
## white space with '_', replace '/' with '-', and remove characters not
## matching 'a-zA-Z_\-0-9\.;='.
#sanitize_name_method = ""
## Replace dots (.) with underscore (_) and dashes (-) with
## double underscore (__) in metric names.
# convert_names = false
## Convert all numeric counters to float
## Enabling this would ensure that both counters and guages are both emitted
## as floats.
# float_counters = false
Splunk
[[outputs.http]]
## Splunk HTTP Event Collector endpoint
url = "https://splunk.example.com:8088/services/collector"
## HTTP method to use
method = "POST"
## Splunk authentication token
headers = {"Authorization" = "Splunk YOUR_SPLUNK_HEC_TOKEN"}
## Serializer for formatting metrics specifically for Splunk
data_format = "splunkmetric"
## Optional parameters
# timeout = "5s"
# insecure_skip_verify = false
# tls_ca = "/path/to/ca.pem"
# tls_cert = "/path/to/cert.pem"
# tls_key = "/path/to/key.pem"
输入和输出集成示例
StatsD
-
实时应用程序性能监控:利用 StatsD 输入插件实时监控应用程序性能指标。通过配置您的应用程序将各种指标发送到 StatsD 服务器,团队可以利用此插件来动态分析性能瓶颈、跟踪用户活动并确保资源优化。历史指标和实时指标的结合允许主动进行故障排除,并提高问题解决过程的响应速度。
-
跟踪 Web 应用程序中的用户参与度指标:使用 StatsD 插件收集用户参与度统计信息,例如页面浏览量、点击事件和互动时间。通过将这些指标发送到 StatsD 服务器,企业可以深入了解用户行为,从而能够根据定量反馈做出数据驱动的决策,以改善用户体验和界面设计。这可以显著提高营销策略和产品开发工作的有效性。
-
基础设施健康监控:部署 StatsD 插件以监控服务器基础设施的健康状况,方法是跟踪资源利用率、服务器响应时间和网络性能等指标。通过此设置,DevOps 团队可以详细了解系统性能,从而在问题升级之前有效地预测问题。这使得能够采取主动的基础设施管理方法,最大限度地减少停机时间并确保最佳的服务交付。
-
创建全面的服务仪表板:将 StatsD 与可视化工具集成,以创建全面的仪表板,反映整个架构中服务的状态和健康状况。例如,组合通过 StatsD 记录的来自多个服务的数据可以将原始指标转换为可操作的见解,从而展示系统性能随时间变化的趋势。此功能使利益干系人能够保持监督并根据可视化的数据集驱动决策,从而提高整体运营透明度。
Splunk
-
实时安全分析:利用此插件将来自各种应用程序的安全相关指标实时流式传输到 Splunk 中。组织可以通过关联跨系统的数据流来立即检测威胁,从而显著缩短检测和响应时间。
-
多云基础设施监控:集成 Telegraf 以将来自多云环境的指标直接整合到 Splunk 中,从而实现全面的可见性和运营情报。这种统一的监控使团队能够快速检测性能问题并简化云资源管理。
-
动态容量规划:部署此插件以将来自容器编排平台(如 Kubernetes)的资源指标持续推送到 Splunk 中。利用 Splunk 的分析功能,团队可以自动执行预测性扩展和资源分配,从而避免资源瓶颈并最大限度地降低成本。
-
自动化事件响应工作流程:将此插件与 Splunk 的警报系统结合使用,以创建自动化事件响应工作流程。Telegraf 收集的指标会触发实时警报和自动化修复脚本,从而确保快速解决问题并保持高系统可用性。
反馈
感谢您成为我们社区的一份子!如果您有任何一般性反馈或在这些页面上发现任何错误,我们欢迎并鼓励您提出意见。请在InfluxDB 社区 Slack 中提交您的反馈。
强大的性能,无限的扩展能力
收集、组织和处理海量高速数据。当您将任何数据视为时间序列数据时,它会更有价值。使用 InfluxDB,这是 #1 的时间序列平台,旨在与 Telegraf 一起扩展。
查看入门方法