VMware vSphere 和 Splunk 集成

强大的性能和简单的集成,由 Telegraf 驱动,InfluxData 构建的开源数据连接器。

info

这不是大规模实时查询的推荐配置。 为了查询和压缩优化、高速摄取和高可用性,您可能需要考虑 VMware vSphere 和 InfluxDB。

5B+

Telegraf 下载量

#1

时序数据库
来源:DB Engines

1B+

InfluxDB 下载量

2,800+

贡献者

目录

强大的性能,无限的扩展

收集、组织和处理海量高速数据。 当您将任何数据视为时序数据时,它会更有价值。 使用 InfluxDB,第一名的时序平台,旨在与 Telegraf 一起扩展。

查看入门方法

输入和输出集成概述

VMware vSphere Telegraf 插件提供了一种从 VMware vCenter 服务器收集指标的方法,从而可以全面监控和管理 vSphere 环境中的虚拟资源。

此输出插件有助于将 Telegraf 收集的指标通过 HTTP 事件收集器直接流式传输到 Splunk,从而可以轻松地与 Splunk 强大的分析平台集成。

集成详情

VMware vSphere

此插件连接到 VMware vSphere 服务器,以收集来自虚拟环境的各种指标,从而实现对虚拟资源的高效监控和管理。 它与 vSphere API 接口,以收集有关集群、主机、资源池、虚拟机、数据存储和 vSAN 实体的信息,并以适合分析和可视化的格式呈现。 该插件对于管理基于 VMware 的基础设施的管理员尤其有价值,因为它有助于实时跟踪系统性能、资源使用情况和操作问题。 通过聚合来自多个来源的数据,该插件使用户能够深入了解资源分配、故障排除和确保最佳系统性能方面的明智决策。 此外,对密钥存储集成的支持允许安全处理敏感凭据,从而促进安全和合规性评估方面的最佳实践。

Splunk

使用 Telegraf 可以轻松地从许多不同的来源收集和聚合指标,并将它们发送到 Splunk。 此配置利用 HTTP 输出插件和专门的 Splunk 指标序列化器,确保将数据高效地摄取到 Splunk 的指标索引中。 HEC 是 Splunk 提供的一种高级机制,旨在通过 HTTP 或 HTTPS 可靠地大规模收集数据,为安全、监控和分析工作负载提供关键功能。 Telegraf 与 Splunk HEC 的集成通过利用标准 HTTP 协议、内置身份验证和结构化数据序列化来简化操作,优化指标摄取并实现即时可操作的见解。

配置

VMware vSphere

[[inputs.vsphere]]
  vcenters = [ "https://vcenter.local/sdk" ]
  username = "[email protected]"
  password = "secret"

  vm_metric_include = [
    "cpu.demand.average",
    "cpu.idle.summation",
    "cpu.latency.average",
    "cpu.readiness.average",
    "cpu.ready.summation",
    "cpu.run.summation",
    "cpu.usagemhz.average",
    "cpu.used.summation",
    "cpu.wait.summation",
    "mem.active.average",
    "mem.granted.average",
    "mem.latency.average",
    "mem.swapin.average",
    "mem.swapinRate.average",
    "mem.swapout.average",
    "mem.swapoutRate.average",
    "mem.usage.average",
    "mem.vmmemctl.average",
    "net.bytesRx.average",
    "net.bytesTx.average",
    "net.droppedRx.summation",
    "net.droppedTx.summation",
    "net.usage.average",
    "power.power.average",
    "virtualDisk.numberReadAveraged.average",
    "virtualDisk.numberWriteAveraged.average",
    "virtualDisk.read.average",
    "virtualDisk.readOIO.latest",
    "virtualDisk.throughput.usage.average",
    "virtualDisk.totalReadLatency.average",
    "virtualDisk.totalWriteLatency.average",
    "virtualDisk.write.average",
    "virtualDisk.writeOIO.latest",
    "sys.uptime.latest",
  ]

  host_metric_include = [
    "cpu.coreUtilization.average",
    "cpu.costop.summation",
    "cpu.demand.average",
    "cpu.idle.summation",
    "cpu.latency.average",
    "cpu.readiness.average",
    "cpu.ready.summation",
    "cpu.swapwait.summation",
    "cpu.usage.average",
    "cpu.usagemhz.average",
    "cpu.used.summation",
    "cpu.utilization.average",
    "cpu.wait.summation",
    "disk.deviceReadLatency.average",
    "disk.deviceWriteLatency.average",
    "disk.kernelReadLatency.average",
    "disk.kernelWriteLatency.average",
    "disk.numberReadAveraged.average",
    "disk.numberWriteAveraged.average",
    "disk.read.average",
    "disk.totalReadLatency.average",
    "disk.totalWriteLatency.average",
    "disk.write.average",
    "mem.active.average",
    "mem.latency.average",
    "mem.state.latest",
    "mem.swapin.average",
    "mem.swapinRate.average",
    "mem.swapout.average",
    "mem.swapoutRate.average",
    "mem.totalCapacity.average",
    "mem.usage.average",
    "mem.vmmemctl.average",
    "net.bytesRx.average",
    "net.bytesTx.average",
    "net.droppedRx.summation",
    "net.droppedTx.summation",
    "net.errorsRx.summation",
    "net.errorsTx.summation",
    "net.usage.average",
    "power.power.average",
    "storageAdapter.numberReadAveraged.average",
    "storageAdapter.numberWriteAveraged.average",
    "storageAdapter.read.average",
    "storageAdapter.write.average",
    "sys.uptime.latest",
  ]

  datacenter_metric_include = [] ## if omitted or empty, all metrics are collected
  datacenter_metric_exclude = [ "*" ] ## Datacenters are not collected by default.

  vsan_metric_include = [] ## if omitted or empty, all metrics are collected
  vsan_metric_exclude = [ "*" ] ## vSAN are not collected by default.

  separator = "_"
  max_query_objects = 256
  max_query_metrics = 256
  collect_concurrency = 1
  discover_concurrency = 1
  object_discovery_interval = "300s"
  timeout = "60s"
  use_int_samples = true
  custom_attribute_include = []
  custom_attribute_exclude = ["*"]
  metric_lookback = 3
  ssl_ca = "/path/to/cafile"
  ssl_cert = "/path/to/certfile"
  ssl_key = "/path/to/keyfile"
  insecure_skip_verify = false
  historical_interval = "5m"
  disconnected_servers_behavior = "error"
  use_system_proxy = true
  http_proxy_url = ""

Splunk

[[outputs.http]]
  ## Splunk HTTP Event Collector endpoint
  url = "https://splunk.example.com:8088/services/collector"

  ## HTTP method to use
  method = "POST"

  ## Splunk authentication token
  headers = {"Authorization" = "Splunk YOUR_SPLUNK_HEC_TOKEN"}

  ## Serializer for formatting metrics specifically for Splunk
  data_format = "splunkmetric"

  ## Optional parameters
  # timeout = "5s"
  # insecure_skip_verify = false
  # tls_ca = "/path/to/ca.pem"
  # tls_cert = "/path/to/cert.pem"
  # tls_key = "/path/to/key.pem"

输入和输出集成示例

VMware vSphere

  1. 动态资源分配:利用此插件来监控虚拟机群的资源使用情况,并根据性能指标自动调整资源分配。 这种情况可能涉及基于从 vSphere API 收集的 CPU 和内存使用率指标实时触发扩展操作,从而确保最佳性能和成本效益。

  2. 容量规划和预测:利用从 vSphere 收集的历史指标来进行容量规划。 分析 CPU、内存和存储使用情况随时间变化的趋势有助于管理员预测何时需要额外资源,从而避免停机并确保虚拟基础设施能够应对增长。

  3. 自动化警报和事件响应:将此插件与警报工具集成,以根据收集的指标设置自动通知。 例如,如果主机上的 CPU 使用率超过指定阈值,则可能会触发警报并自动启动预定义的补救步骤,例如将虚拟机迁移到利用率较低的主机。

  4. 跨集群的性能基准测试:使用收集的指标来比较不同 vCenter 中集群的性能。 此基准测试提供了有关哪种集群配置产生最佳资源效率的见解,并可以指导未来的基础设施增强。

Splunk

  1. 实时安全分析:利用此插件将来自各种应用程序的安全相关指标实时流式传输到 Splunk 中。 组织可以通过关联跨系统的数据流来立即检测威胁,从而显着缩短检测和响应时间。

  2. 多云基础设施监控:集成 Telegraf 以将来自多云环境的指标直接整合到 Splunk 中,从而实现全面的可见性和运营情报。 这种统一的监控使团队能够快速检测性能问题并简化云资源管理。

  3. 动态容量规划:部署插件以将来自容器编排平台(如 Kubernetes)的资源指标持续推送到 Splunk 中。 通过利用 Splunk 的分析功能,团队可以自动化预测性扩展和资源分配,从而避免资源瓶颈并最大限度地降低成本。

  4. 自动化事件响应工作流程:将此插件与 Splunk 的警报系统结合使用,以创建自动化事件响应工作流程。 Telegraf 收集的指标会触发实时警报和自动化补救脚本,从而确保快速解决问题并保持高系统可用性。

反馈

感谢您成为我们社区的一份子! 如果您有任何一般反馈或在这些页面上发现任何错误,我们欢迎并鼓励您提出意见。 请在 InfluxDB 社区 Slack 中提交您的反馈。

强大的性能,无限的扩展

收集、组织和处理海量高速数据。 当您将任何数据视为时序数据时,它会更有价值。 使用 InfluxDB,第一名的时序平台,旨在与 Telegraf 一起扩展。

查看入门方法

相关集成

HTTP 和 InfluxDB 集成

HTTP 插件从一个或多个 HTTP(S) 端点收集指标。 它支持各种身份验证方法和数据格式的配置选项。

查看集成

Kafka 和 InfluxDB 集成

此插件从 Kafka 读取消息,并允许根据这些消息创建指标。 它支持各种配置,包括不同的 Kafka 设置和消息处理选项。

查看集成

Kinesis 和 InfluxDB 集成

Kinesis 插件允许从 AWS Kinesis 流中读取指标。 它支持多种输入数据格式,并提供使用 DynamoDB 的检查点功能,以实现可靠的消息处理。

查看集成