
对于电信公司而言,正常运行时间是首要任务,这使得监控成为 RingCentral 的一项战略举措。为了与这一举措保持同步,他们需要构建一个可扩展的监控解决方案,以跟上其业务和基础设施的增长。事实证明,这比他们意识到的更具挑战性,因为他们已经超出了 Zabbix 监控工具集的容量,需要用一个提供高可用性和指标粒度的解决方案来替代它。此外,RingCentral 还制定了一个目标,即简化其流程,以更有效地管理开发、配置更改以及指标和事件的收集,这些指标和事件来自他们不断增长的应用程序环境,目前大约有 400 多个不同的“自制”组件,由 1,500 名开发人员的团队持续开发。
RingCentral 选择迁移到开源 InfluxDB Stack。在评估阶段之后,他们部署了 InfluxDB 来处理他们的指标和事件量增长,Telegraf 作为安装在每台主机(物理或虚拟)中的代理来收集监控数据,Kapacitor 池用于实现零停机时间(因此不会错过任何触发事件),以及内部构建的 Kapacitor Manager 来管理他们的 Kapacitor 实例池。
今天,借助 InfluxDB 和 Telegraf,RingCentral 的监控解决方案支持其产品的四大支柱(云 PBX、联络中心、视频和会议以及团队消息)以及构建在这些支柱之上的功能(开放平台、全球业务、分析和用户体验)的可视性、集成配置和操作效率警报以及快速的 DevOps 周期。
InfluxDays 演讲
在本次演讲中,RingCentral 的首席系统架构师 Yuri Ardulov 将分享如何将 Kapacitor 与他们在 RingCentral 构建的 Kapacitor Manager 一起使用。
10,000 台主机
在北美洲主要地区设有 2 个数据中心(包括裸机和虚拟)
250 万个指标和 70 万个触发器
收集的指标和定义的触发器
每 10 秒 16,000 个指标
对规模的需求显而易见 – 单个应用程序会生成大量指标
使用的技术
“我们的一项要求是没有单点故障。我们不能容忍 InfluxDB 出现任何问题,因为存储在那里的指标对于帮助我们履行服务正常运行时间承诺至关重要。”