Kubernetes 和 Loki 集成

强大的性能和简单的集成,由 Telegraf 和 InfluxData 构建的开源数据连接器驱动。

info

这不是大规模实时查询的推荐配置。为了查询和压缩优化、高速摄取和高可用性,您可能需要考虑 Kubernetes 和 InfluxDB。

50亿+

Telegraf 下载量

#1

时序数据库
来源:DB-Engines

10亿+

InfluxDB 下载量

2,800+

贡献者

目录

强大的性能,无限的扩展

收集、组织和处理大量高速数据。当您将任何数据视为时序数据时,它会更有价值。InfluxDB 是排名第一的时序平台,旨在与 Telegraf 一起扩展。

查看入门方法

输入和输出集成概述

此插件通过与 Kubelet API 通信来捕获 Kubernetes Pod 和容器的指标。

Loki 插件允许用户将日志发送到 Loki 进行聚合和查询,从而利用 Loki 高效的存储能力。

集成详情

Kubernetes

Kubernetes 输入插件与 Kubelet API 接口,以收集 Kubernetes 安装中单个主机上运行的 Pod 和容器的指标,理想情况下,它是 DaemonSet 的一部分。通过在集群中的每个节点上运行,它从本地运行的 Kubelet 收集指标,确保数据反映环境的实时状态。作为一个快速发展的项目,Kubernetes 经常更新,此插件遵循主要云提供商支持的版本,在有限的时间跨度内保持跨多个版本的兼容性。需要特别注意的是潜在的高序列基数,这可能会给数据库带来负担;因此,建议用户实施过滤技术和保留策略以有效管理此负载。配置选项提供了插件行为的灵活自定义,以无缝集成到不同的设置中,从而增强其在监控 Kubernetes 环境中的实用性。

Loki

此 Loki 插件与 Grafana Loki 集成,这是一个强大的日志聚合系统。通过以与 Loki 兼容的格式发送日志,此插件可以有效地存储和查询日志。每个日志条目都以键值格式结构化,其中键代表字段名称,值代表相应的日志信息。按时间戳对日志进行排序可确保通过 Loki 查询时,日志流保持时间顺序。此插件对密钥的支持使安全管理身份验证参数变得更加容易,而 HTTP 标头、Gzip 编码和 TLS 配置的选项增强了日志传输的适应性和安全性,从而满足各种部署需求。

配置

Kubernetes

[[inputs.kubernetes]]
  ## URL for the kubelet, if empty read metrics from all nodes in the cluster
  url = "http://127.0.0.1:10255"

  ## Use bearer token for authorization. ('bearer_token' takes priority)
  ## If both of these are empty, we'll use the default serviceaccount:
  ## at: /var/run/secrets/kubernetes.io/serviceaccount/token
  ##
  ## To re-read the token at each interval, please use a file with the
  ## bearer_token option. If given a string, Telegraf will always use that
  ## token.
  # bearer_token = "/var/run/secrets/kubernetes.io/serviceaccount/token"
  ## OR
  # bearer_token_string = "abc_123"

  ## Kubernetes Node Metric Name
  ## The default Kubernetes node metric name (i.e. kubernetes_node) is the same
  ## for the kubernetes and kube_inventory plugins. To avoid conflicts, set this
  ## option to a different value.
  # node_metric_name = "kubernetes_node"

  ## Pod labels to be added as tags.  An empty array for both include and
  ## exclude will include all labels.
  # label_include = []
  # label_exclude = ["*"]

  ## Set response_timeout (default 5 seconds)
  # response_timeout = "5s"

  ## Optional TLS Config
  # tls_ca = /path/to/cafile
  # tls_cert = /path/to/certfile
  # tls_key = /path/to/keyfile
  ## Use TLS but skip chain & host verification
  # insecure_skip_verify = false

Loki

[[outputs.loki]]
  ## The domain of Loki
  domain = "https://loki.domain.tld"

  ## Endpoint to write api
  # endpoint = "/loki/api/v1/push"

  ## Connection timeout, defaults to "5s" if not set.
  # timeout = "5s"

  ## Basic auth credential
  # username = "loki"
  # password = "pass"

  ## Additional HTTP headers
  # http_headers = {"X-Scope-OrgID" = "1"}

  ## If the request must be gzip encoded
  # gzip_request = false

  ## Optional TLS Config
  # tls_ca = "/etc/telegraf/ca.pem"
  # tls_cert = "/etc/telegraf/cert.pem"
  # tls_key = "/etc/telegraf/key.pem"

  ## Sanitize Tag Names
  ## If true, all tag names will have invalid characters replaced with
  ## underscores that do not match the regex: ^[a-zA-Z_:][a-zA-Z0-9_:]*.
  # sanitize_label_names = false

  ## Metric Name Label
  ## Label to use for the metric name to when sending metrics. If set to an
  ## empty string, this will not add the label. This is NOT suggested as there
  ## is no way to differentiate between multiple metrics.
  # metric_name_label = "__name"

输入和输出集成示例

Kubernetes

  1. 动态资源分配监控:通过使用 Kubernetes 插件,团队可以为各种 Pod 和容器的资源使用模式设置警报。这种主动监控方法能够根据特定阈值自动扩展资源,从而帮助优化性能,同时在高峰使用期间最大限度地降低成本。

  2. 多租户资源隔离分析:使用 Kubernetes 的组织可以利用此插件来跟踪每个命名空间的资源消耗。在多租户场景中,了解不同团队之间的资源分配和使用情况对于确保公平访问和性能保证至关重要,从而带来更好的资源管理策略。

  3. 实时健康仪表板:将 Kubernetes 插件捕获的数据集成到 Grafana 等可视化工具中,以创建实时仪表板。这些仪表板提供了对 Kubernetes 环境整体健康状况和性能的深入了解,使团队能够快速识别和纠正跨集群、Pod 和容器的问题。

  4. 自动化事件响应工作流程:通过将 Kubernetes 插件与警报管理系统相结合,团队可以根据实时指标自动化事件响应程序。如果 Pod 的资源使用量超过预定义限制,则自动化工作流程可以触发补救措施,例如重新启动 Pod 或重新分配资源,所有这些都有助于提高系统弹性。

Loki

  1. 微服务集中日志记录:利用 Loki 插件收集 Kubernetes 集群中运行的多个微服务的日志。通过将日志定向到集中的 Loki 实例,开发人员可以在一个位置监控、搜索和分析来自所有服务的日志,从而简化故障排除和性能监控。此设置简化了操作,并支持对跨分布式应用程序的问题进行快速响应。

  2. 实时日志异常检测:将 Loki 与监控工具结合使用,以实时分析日志输出中可能表明系统错误或安全威胁的异常模式。在日志流上实施异常检测使团队能够主动识别和响应事件,从而提高系统可靠性并增强安全态势。

  3. 通过 Gzip 压缩增强日志处理:配置 Loki 插件以使用 Gzip 压缩进行日志传输。这种方法可以减少带宽使用并提高传输速度,这在网络带宽可能受限的环境中尤其有利。它对于高容量日志记录应用程序特别有用,在这些应用程序中,每个字节都很重要,性能至关重要。

  4. 使用自定义标头支持多租户:利用添加自定义 HTTP 标头的功能来隔离多租户应用程序环境中的不同租户的日志。通过使用 Loki 插件为每个租户发送不同的标头,运营商可以确保适当的日志管理并符合数据隔离要求,使其成为 SaaS 应用程序的通用解决方案。

反馈

感谢您成为我们社区的一份子!如果您有任何一般性反馈或在这些页面上发现任何错误,我们欢迎并鼓励您提出意见。请在 InfluxDB 社区 Slack 中提交您的反馈。

强大的性能,无限的扩展

收集、组织和处理大量高速数据。当您将任何数据视为时序数据时,它会更有价值。InfluxDB 是排名第一的时序平台,旨在与 Telegraf 一起扩展。

查看入门方法

相关集成

HTTP 和 InfluxDB 集成

HTTP 插件从一个或多个 HTTP(S) 端点收集指标。它支持各种身份验证方法和数据格式的配置选项。

查看集成

Kafka 和 InfluxDB 集成

此插件从 Kafka 读取消息,并允许基于这些消息创建指标。它支持各种配置,包括不同的 Kafka 设置和消息处理选项。

查看集成

Kinesis 和 InfluxDB 集成

Kinesis 插件允许从 AWS Kinesis 流读取指标。它支持多种输入数据格式,并提供带有 DynamoDB 的检查点功能,以实现可靠的消息处理。

查看集成