Ceph 存储平台监控

强大的性能和简单的集成,由 InfluxData 构建的开源数据连接器 Telegraf 提供支持。

50 亿+

Telegraf 下载量

#1

时间序列数据库
来源:DB-Engines

10 亿+

InfluxDB 下载量

2,800+

贡献者

目录

强大的性能,无限的扩展

收集、组织和处理海量高速数据。当您将任何数据视为时间序列数据时,它都更有价值。借助 InfluxDB,排名第一的时间序列平台,旨在与 Telegraf 一起扩展。

查看入门方法

Ceph 是一个自由软件存储平台,在一个分布式计算机集群上实现对象存储,并为对象、块和文件级存储提供接口。Ceph 的主要目标是完全分布式操作,没有单点故障,可扩展到 EB 级别,并且可以免费使用。

关于对象存储,Ceph 旨在为用户提供对其本机语言绑定(或 radosgw,如果他们喜欢)中所有关键对象的无缝访问。它还提供了一个 REST 接口,该接口与为 S3 和 Swift 编写的应用程序原生兼容。在块存储方面,Ceph 的 RADOS 块设备(也称为 RBD)提供对环境中所有块设备映像的无限制访问,这些映像被剥离并在整个存储集群中复制。

最后,Ceph 为用户提供了一个完全符合 POSIX 标准的网络文件系统 (称为 CephFS),该文件系统提供高性能、大量数据存储以及最大程度地兼容旧版应用程序的能力,所有这些都同时实现。

为什么将 Telegraf 插件用于 Ceph 存储?

Ceph 在一个统一系统中独特地交付对象、块和文件存储。Ceph 因其开源且免费使用而变得流行,并且因其高度可靠且易于管理而受到 Kubernetes 用户的青睐。Ceph 提供非凡的可扩展性

  • Ceph 节点利用商用硬件和智能守护程序。
  • Ceph 存储集群可容纳大量节点,这些节点相互通信以动态复制和重新分配数据。

Ceph 存储集群从 Ceph 客户端接收数据——无论数据是通过 Ceph 块设备、Ceph 对象存储、Ceph 文件系统还是您使用 librados 创建的自定义实现传入——并将数据存储为对象。

监控您的 Ceph 存储基础设施与监控应用程序运行所在的容器同样重要。您可以使用 Ceph Storage Telegraf 插件来收集指标,这些指标将帮助您监控 Ceph 存储基础设施。

除了允许您随时检查环境的健康状态外,Ceph Telegraf 插件还使用户能够立即了解在线监控节点何时未达到法定人数。这可以帮助避免死锁,而死锁是您绝对希望避免的那种破坏性事件。同样,监控 Ceph 将提醒您注意需要立即关注的情况,例如 OSD 节点已关闭但如果它们保持状态超过连续五分钟,则仍然看起来正在参与。在这种情况下,Ceph 可能在从节点丢失中恢复时遇到问题,而监控可以帮助您尽快恢复并运行。

如果您为某些非关键应用程序运行小型 Ceph 集群,则可以使用随附的内置监控工具。但是,如果您将其作为生产环境的一部分运行,则需要 Telegraf 插件 for Ceph storage 才能提供的强大监控功能。

如何使用 Ceph Storage Telegraf 插件监控您的 Ceph 存储基础设施

配置 Ceph Storage Telegraf 插件很简单。配置 MON 和 OSD 套接字文件的位置、目录和前缀以确定套接字类型。配置完成后,它将从 Ceph 存储集群中的 MON 和 OSD 节点收集性能指标。

管理套接字统计信息

此收集器通过扫描配置的 SocketDir 以查找 OSD、MON、MDS 和 RGW 套接字文件来工作。当它找到 MON 套接字时,它运行 ceph --admin-daemon $file perfcounters_dump。对于 OSD,它运行 ceph --admin-daemon $file perf dump

生成的 JSON 被解析并基于顶层键进行分组。顶层键用作收集标签,所有子键都被展平。例如

{
   "paxos": {
     "refresh": 9363435,
     "refresh_latency": {
       "avgcount": 9363435,
       "sum": 5378.794002000
     }
   }
 }

将被解析为以下指标,所有指标都将标记为 collection=paxos

  • refresh = 9363435
  • refresh_latency.avgcount: 9363435
  • refresh_latency.sum: 5378.794002000
集群统计信息

此收集器通过对集群调用 Ceph 命令来工作,因此只需要 ceph 客户端、有效的 ceph 配置和访问密钥即可运行(ceph_config 和 ceph_user 配置变量协同工作以指定这些先决条件)。它可以在您希望的任何可以访问集群的服务器上运行。目前支持的命令有

  • ceph status
  • ceph df
  • ceph osd pool stats

用于监控的关键 Ceph 存储指标

您应该主动监控的一些重要 Ceph 存储指标包括

  • Ceph 集群健康状态
  • 在线监控节点的法定人数
  • OSD 节点的状态(是否关闭但在内)
  • 整个集群或某些节点达到容量状态

推荐的 Ceph 安装方式

有几种不同的安装 Ceph 的方式。官方推荐的方式是使用 Cephadm 通过 SSH 从管理器守护程序连接到主机来部署和管理 Ceph 集群,或者使用 Rook。Rook 是一组 Kubernetes 存储操作员。它部署和管理在 Kubernetes 中运行的 Ceph 集群,同时还支持通过 Kubernetes API 管理存储资源和配置。

在集群监控方面,Ceph 提供了整个监控堆栈的部署,包括 Prometheus、Prometheus exporters、Alert manager 等。在这种情况下,在 Telegraf 中使用 Prometheus Input Plugin 似乎更适合连接和收集 Kubernetes 中运行的 Ceph Manager 模块服务端点的所有 Prometheus 指标。

有关更多信息,请查看文档。

项目 URL   文档

强大的性能,无限的扩展

收集、组织和处理海量高速数据。当您将任何数据视为时间序列数据时,它都更有价值。借助 InfluxDB,排名第一的时间序列平台,旨在与 Telegraf 一起扩展。

查看入门方法

相关集成