Apache Mesos监控系统

免费使用此InfluxDB集成

Apache Mesos是一个开源项目,用于管理计算机集群。它将CPU、内存、存储等计算资源从机器(物理或虚拟)抽象出来,从而有效地构建和运行容错和弹性分布式系统。

为什么使用Apache Mesos Telegraf插件?

Apache Mesos Telegraf插件允许您收集Mesos主节点和代理节点提供的可观察性指标,并将它们插入到您的InfluxDB实例中。该插件可以收集一组指标,使集群管理员能够监控资源使用情况并在问题出现之前检测到问题。

如何使用Telegraf插件监控Apache Mesos

Apache Mesos Telegraf插件将从Apache Mesos收集指标并将其插入到InfluxDB中。默认情况下,此插件未配置从Mesos收集指标,因为集群可以以多种方式部署。您需要指定要收集指标的master/slave节点。

用于监控的关键Apache Mesos指标

您应该积极监控的一些重要Apache Mesos指标包括

资源

  • master/cpus_percent 分配的CPU百分比
  • master/cpus_used 分配的CPU数量
  • master/cpus_total CPU数量
  • master/cpus_revocable_percent 分配的可回收CPU百分比
  • master/cpus_revocable_total 可回收CPU数量
  • master/cpus_revocable_used 分配的可回收CPU数量
  • master/disk_percent 分配的磁盘空间百分比
  • master/disk_used 分配的磁盘空间(MB)
  • master/disk_total 磁盘空间(MB)
  • master/disk_revocable_percent 分配的可回收磁盘空间百分比
  • master/disk_revocable_total 可回收磁盘空间(MB)
  • master/disk_revocable_used 分配的可回收磁盘空间(MB)
  • master/gpus_percent 分配的GPU百分比
  • master/gpus_used 分配的GPU数量
  • master/gpus_total GPU数量
  • master/gpus_revocable_percent 分配的可回收GPU百分比
  • master/gpus_revocable_total 可回收GPU数量
  • master/gpus_revocable_used 分配的可回收GPU数量
  • master/mem_percent 分配的内存百分比
  • master/mem_used 分配的内存(MB)
  • master/mem_total 内存(MB)
  • master/mem_revocable_percent 分配的可撤销内存百分比
  • master/mem_revocable_total 可撤销内存(MB)
  • master/mem_revocable_used 分配的可撤销内存(MB)

主节点

  • master/elected 是否为选定的主节点
  • master/uptime_secs 运行时间(秒)

系统

  • system/cpus_total 此主节点中可用的CPU数量
  • system/load_15min 过去15分钟的平均负载
  • system/load_5min 过去5分钟的平均负载
  • system/load_1min 过去1分钟的平均负载
  • system/mem_free_bytes 空闲内存(字节)
  • system/mem_total_bytes 总内存(字节)

从节点

  • master/slave_registrations
  • master/slave_removals
  • master/slave_reregistrations
  • master/slave_shutdowns_scheduled
  • master/slave_shutdowns_canceled
  • master/slave_shutdowns_completed
  • master/slaves_active
  • master/slaves_connected
  • master/slaves_disconnected
  • master/slaves_inactive
  • master/slave_unreachable_canceled
  • master/slave_unreachable_completed
  • master/slave_unreachable_scheduled
  • master/slaves_unreachable

框架

  • master/frameworks_active
  • master/frameworks_connected
  • master/frameworks_disconnected
  • master/frameworks_inactive
  • master/outstanding_offers

框架提供

  • master/frameworks/subscribed
  • master/frameworks/calls_total
  • master/frameworks/calls
  • master/frameworks/events_total
  • master/frameworks/events
  • master/frameworks/operations_total
  • master/frameworks/operations
  • master/frameworks/tasks/active
  • master/frameworks/tasks/terminal
  • master/frameworks/offers/sent
  • master/frameworks/offers/accepted
  • master/frameworks/offers/declined
  • master/frameworks/offers/rescinded
  • master/frameworks/roles/suppressed

任务

  • master/tasks_error
  • master/tasks_failed
  • master/tasks_finished
  • master/tasks_killed
  • master/tasks_lost
  • master/tasks_running
  • master/tasks_staging
  • master/tasks_starting
  • master/tasks_dropped
  • master/tasks_gone
  • master/tasks_gone_by_operator
  • master/tasks_killing
  • master/tasks_unreachable

消息

  • master/invalid_executor_to_framework_messages
  • master/invalid_framework_to_executor_messages
  • master/invalid_status_update_acknowledgements
  • master/invalid_status_updates
  • master/dropped_messages
  • master/messages_authenticate
  • master/messages_deactivate_framework
  • master/messages_decline_offers
  • master/messages_executor_to_framework
  • master/messages_exited_executor
  • master/messages_framework_to_executor
  • master/messages_kill_task
  • master/messages_launch_tasks
  • master/messages_reconcile_tasks
  • master/messages_register_framework
  • master/messages_register_slave
  • master/messages_reregister_framework
  • master/messages_reregister_slave
  • master/messages_resource_request
  • master/messages_revive_offers
  • master/messages_status_update
  • master/messages_status_update_acknowledgement
  • master/messages_unregister_framework
  • master/messages_unregister_slave
  • master/messages_update_slave
  • master/recovery_slave_removals
  • master/slave_removals/reason_registered
  • master/slave_removals/reason_unhealthy
  • master/slave_removals/reason_unregistered
  • master/valid_framework_to_executor_messages
  • master/valid_status_update_acknowledgements
  • master/valid_status_updates
  • master/task_lost/source_master/reason_invalid_offers
  • master/task_lost/source_master/reason_slave_removed
  • master/task_lost/source_slave/reason_executor_terminated
  • master/valid_executor_to_framework_messages
  • master/invalid_operation_status_update_acknowledgements
  • master/messages_operation_status_update_acknowledgement
  • master/messages_reconcile_operations
  • master/messages_suppress_offers
  • master/valid_operation_status_update_acknowledgements

事件队列

  • master/event_queue_dispatches
  • master/event_queue_http_requests
  • master/event_queue_messages
  • master/operator_event_stream_subscribers

注册器

  • registrar/state_fetch_ms
  • registrar/state_store_ms
  • registrar/state_store_ms/max
  • registrar/state_store_ms/min
  • registrar/state_store_ms/p50
  • registrar/state_store_ms/p90
  • registrar/state_store_ms/p95
  • registrar/state_store_ms/p99
  • registrar/state_store_ms/p999
  • registrar/state_store_ms/p9999
  • registrar/state_store_ms/count
  • registrar/log/ensemble_size
  • registrar/log/recovered
  • registrar/queued_operations
  • registrar/registry_size_bytes

分配器

  • allocator/allocation_run_ms
  • allocator/allocation_run_ms/count
  • allocator/allocation_run_ms/max
  • 分配器/分配运行时间(ms/最小)
  • 分配器/分配运行时间(ms/p50)
  • 分配器/分配运行时间(ms/p90)
  • 分配器/分配运行时间(ms/p95)
  • 分配器/分配运行时间(ms/p99)
  • 分配器/分配运行时间(ms/p999)
  • 分配器/分配运行时间(ms/p9999)
  • 分配器/分配运行次数
  • 分配器/分配运行延迟(ms)
  • 分配器/分配运行延迟(ms/计数)
  • 分配器/分配运行延迟(ms/最大)
  • 分配器/分配运行延迟(ms/最小)
  • 分配器/分配运行延迟(ms/p50)
  • 分配器/分配运行延迟(ms/p90)
  • 分配器/分配运行延迟(ms/p95)
  • 分配器/分配运行延迟(ms/p99)
  • 分配器/分配运行延迟(ms/p999)
  • 分配器/分配运行延迟(ms/p9999)
  • 分配器/角色/份额/主导
  • 分配器/事件队列分发
  • 分配器/出价过滤器/角色/活跃
  • 分配器/配额/角色/资源/提供或分配
  • 分配器/配额/角色/资源/担保
  • 分配器/资源/CPUs/提供或分配
  • 分配器/资源/CPUs/总数
  • 分配器/资源/磁盘/提供或分配
  • 分配器/资源/磁盘/总数
  • 分配器/资源/内存/提供或分配
  • 分配器/资源/内存/总数

Mesos 从机度量分组

  • 资源
    • 从机/CPUs 百分比
    • 从机/CPUs 使用量
    • 从机/CPUs 总数
    • 从机/CPUs 可撤销百分比
    • 从机/CPUs 可撤销总数
    • 从机/CPUs 可撤销使用量
    • 从机/磁盘百分比
    • 从机/磁盘使用量
    • 从机/磁盘总数
    • 从机/磁盘可撤销百分比
    • 从机/磁盘可撤销总数
    • 从机/磁盘可撤销使用量
    • 从机/GPU 百分比
    • 从机/GPU 使用量
    • 从机/GPU 总数,
    • 从机/GPU 可撤销百分比
    • 从机/GPU 可撤销总数
    • 从机/GPU 可撤销使用量
    • 从机/内存百分比
    • 从机/内存使用量
    • 从机/内存总数
    • 从机/内存可撤销百分比
    • 从机/内存可撤销总数
    • 从机/内存可撤销使用量
  • 代理
    • 从机/已注册
    • 从机/运行时间(秒)
  • 系统
    • 系统/CPUs 总数
    • 系统/15分钟负载
    • 系统/5分钟负载
    • 系统/1分钟负载
    • 系统/内存空闲字节数
    • 系统/内存总数字节数
  • 执行器
    • 容器化器/Mesos/容器销毁错误
    • 从机/容器启动错误
    • 从机/执行器被抢占
    • 从机/活跃框架
    • 从机/执行器目录最大允许年龄(秒)
    • 从机/注册中的执行器
    • 从机/运行中的执行器
    • 从机/终止的执行器
    • 从机/正在终止的执行器
    • 从机/恢复错误
  • 任务
    • 从机/任务失败
    • 从机/任务完成
    • 从机/任务被杀死
    • 从机/任务丢失
    • 从机/运行中的任务
    • 从机/准备中的任务
    • 从机/启动中的任务
  • 消息
    • 从机/无效框架消息
    • 从机/无效状态更新
    • 从机/有效框架消息
    • 从机/有效状态更新

您可以在他们的文档页面上了解更多关于 Apache Meso 度量 的信息。

有关更多信息,请参阅文档。

项目 URL   文档

相关资源

InfluxDb-cloud-logo

最强大的时间序列
数据库作为服务

免费开始
Influxdbu

开发者教育

针对时间序列应用程序开发者的培训。

查看所有教育