Apache Mesos监控系统
免费使用此InfluxDB集成Apache Mesos是一个开源项目,用于管理计算机集群。它将CPU、内存、存储等计算资源从机器(物理或虚拟)抽象出来,从而有效地构建和运行容错和弹性分布式系统。
为什么使用Apache Mesos Telegraf插件?
Apache Mesos Telegraf插件允许您收集Mesos主节点和代理节点提供的可观察性指标,并将它们插入到您的InfluxDB实例中。该插件可以收集一组指标,使集群管理员能够监控资源使用情况并在问题出现之前检测到问题。
如何使用Telegraf插件监控Apache Mesos
Apache Mesos Telegraf插件将从Apache Mesos收集指标并将其插入到InfluxDB中。默认情况下,此插件未配置从Mesos收集指标,因为集群可以以多种方式部署。您需要指定要收集指标的master/slave节点。
用于监控的关键Apache Mesos指标
您应该积极监控的一些重要Apache Mesos指标包括
资源
master/cpus_percent
分配的CPU百分比master/cpus_used
分配的CPU数量master/cpus_total
CPU数量master/cpus_revocable_percent
分配的可回收CPU百分比master/cpus_revocable_total
可回收CPU数量master/cpus_revocable_used
分配的可回收CPU数量master/disk_percent
分配的磁盘空间百分比master/disk_used
分配的磁盘空间(MB)master/disk_total
磁盘空间(MB)master/disk_revocable_percent
分配的可回收磁盘空间百分比master/disk_revocable_total
可回收磁盘空间(MB)master/disk_revocable_used
分配的可回收磁盘空间(MB)master/gpus_percent
分配的GPU百分比master/gpus_used
分配的GPU数量master/gpus_total
GPU数量master/gpus_revocable_percent
分配的可回收GPU百分比master/gpus_revocable_total
可回收GPU数量master/gpus_revocable_used
分配的可回收GPU数量master/mem_percent
分配的内存百分比master/mem_used
分配的内存(MB)master/mem_total
内存(MB)master/mem_revocable_percent
分配的可撤销内存百分比master/mem_revocable_total
可撤销内存(MB)master/mem_revocable_used
分配的可撤销内存(MB)
主节点
master/elected
是否为选定的主节点master/uptime_secs
运行时间(秒)
系统
system/cpus_total
此主节点中可用的CPU数量system/load_15min
过去15分钟的平均负载system/load_5min
过去5分钟的平均负载system/load_1min
过去1分钟的平均负载system/mem_free_bytes
空闲内存(字节)system/mem_total_bytes
总内存(字节)
从节点
master/slave_registrations
master/slave_removals
master/slave_reregistrations
master/slave_shutdowns_scheduled
master/slave_shutdowns_canceled
master/slave_shutdowns_completed
master/slaves_active
master/slaves_connected
master/slaves_disconnected
master/slaves_inactive
master/slave_unreachable_canceled
master/slave_unreachable_completed
master/slave_unreachable_scheduled
master/slaves_unreachable
框架
master/frameworks_active
master/frameworks_connected
master/frameworks_disconnected
master/frameworks_inactive
master/outstanding_offers
框架提供
master/frameworks/subscribed
master/frameworks/calls_total
master/frameworks/calls
master/frameworks/events_total
master/frameworks/events
master/frameworks/operations_total
master/frameworks/operations
master/frameworks/tasks/active
master/frameworks/tasks/terminal
master/frameworks/offers/sent
master/frameworks/offers/accepted
master/frameworks/offers/declined
master/frameworks/offers/rescinded
master/frameworks/roles/suppressed
任务
master/tasks_error
master/tasks_failed
master/tasks_finished
master/tasks_killed
master/tasks_lost
master/tasks_running
master/tasks_staging
master/tasks_starting
master/tasks_dropped
master/tasks_gone
master/tasks_gone_by_operator
master/tasks_killing
master/tasks_unreachable
消息
master/invalid_executor_to_framework_messages
master/invalid_framework_to_executor_messages
master/invalid_status_update_acknowledgements
master/invalid_status_updates
master/dropped_messages
master/messages_authenticate
master/messages_deactivate_framework
master/messages_decline_offers
master/messages_executor_to_framework
master/messages_exited_executor
master/messages_framework_to_executor
master/messages_kill_task
master/messages_launch_tasks
master/messages_reconcile_tasks
master/messages_register_framework
master/messages_register_slave
master/messages_reregister_framework
master/messages_reregister_slave
master/messages_resource_request
master/messages_revive_offers
master/messages_status_update
master/messages_status_update_acknowledgement
master/messages_unregister_framework
master/messages_unregister_slave
master/messages_update_slave
master/recovery_slave_removals
master/slave_removals/reason_registered
master/slave_removals/reason_unhealthy
master/slave_removals/reason_unregistered
master/valid_framework_to_executor_messages
master/valid_status_update_acknowledgements
master/valid_status_updates
master/task_lost/source_master/reason_invalid_offers
master/task_lost/source_master/reason_slave_removed
master/task_lost/source_slave/reason_executor_terminated
master/valid_executor_to_framework_messages
master/invalid_operation_status_update_acknowledgements
master/messages_operation_status_update_acknowledgement
master/messages_reconcile_operations
master/messages_suppress_offers
master/valid_operation_status_update_acknowledgements
事件队列
master/event_queue_dispatches
master/event_queue_http_requests
master/event_queue_messages
master/operator_event_stream_subscribers
注册器
registrar/state_fetch_ms
registrar/state_store_ms
registrar/state_store_ms/max
registrar/state_store_ms/min
registrar/state_store_ms/p50
registrar/state_store_ms/p90
registrar/state_store_ms/p95
registrar/state_store_ms/p99
registrar/state_store_ms/p999
registrar/state_store_ms/p9999
registrar/state_store_ms/count
registrar/log/ensemble_size
registrar/log/recovered
registrar/queued_operations
registrar/registry_size_bytes
分配器
allocator/allocation_run_ms
allocator/allocation_run_ms/count
allocator/allocation_run_ms/max
分配器/分配运行时间(ms/最小)
分配器/分配运行时间(ms/p50)
分配器/分配运行时间(ms/p90)
分配器/分配运行时间(ms/p95)
分配器/分配运行时间(ms/p99)
分配器/分配运行时间(ms/p999)
分配器/分配运行时间(ms/p9999)
分配器/分配运行次数
分配器/分配运行延迟(ms)
分配器/分配运行延迟(ms/计数)
分配器/分配运行延迟(ms/最大)
分配器/分配运行延迟(ms/最小)
分配器/分配运行延迟(ms/p50)
分配器/分配运行延迟(ms/p90)
分配器/分配运行延迟(ms/p95)
分配器/分配运行延迟(ms/p99)
分配器/分配运行延迟(ms/p999)
分配器/分配运行延迟(ms/p9999)
分配器/角色/份额/主导
分配器/事件队列分发
分配器/出价过滤器/角色/活跃
分配器/配额/角色/资源/提供或分配
分配器/配额/角色/资源/担保
分配器/资源/CPUs/提供或分配
分配器/资源/CPUs/总数
分配器/资源/磁盘/提供或分配
分配器/资源/磁盘/总数
分配器/资源/内存/提供或分配
分配器/资源/内存/总数
Mesos 从机度量分组
- 资源
从机/CPUs 百分比
从机/CPUs 使用量
从机/CPUs 总数
从机/CPUs 可撤销百分比
从机/CPUs 可撤销总数
从机/CPUs 可撤销使用量
从机/磁盘百分比
从机/磁盘使用量
从机/磁盘总数
从机/磁盘可撤销百分比
从机/磁盘可撤销总数
从机/磁盘可撤销使用量
从机/GPU 百分比
从机/GPU 使用量
从机/GPU 总数,
从机/GPU 可撤销百分比
从机/GPU 可撤销总数
从机/GPU 可撤销使用量
从机/内存百分比
从机/内存使用量
从机/内存总数
从机/内存可撤销百分比
从机/内存可撤销总数
从机/内存可撤销使用量
- 代理
从机/已注册
从机/运行时间(秒)
- 系统
系统/CPUs 总数
系统/15分钟负载
系统/5分钟负载
系统/1分钟负载
系统/内存空闲字节数
系统/内存总数字节数
- 执行器
容器化器/Mesos/容器销毁错误
从机/容器启动错误
从机/执行器被抢占
从机/活跃框架
从机/执行器目录最大允许年龄(秒)
从机/注册中的执行器
从机/运行中的执行器
从机/终止的执行器
从机/正在终止的执行器
从机/恢复错误
- 任务
从机/任务失败
从机/任务完成
从机/任务被杀死
从机/任务丢失
从机/运行中的任务
从机/准备中的任务
从机/启动中的任务
- 消息
从机/无效框架消息
从机/无效状态更新
从机/有效框架消息
从机/有效状态更新
您可以在他们的文档页面上了解更多关于 Apache Meso 度量 的信息。
有关更多信息,请参阅文档。