对于电信公司来说,系统正常运行时间是首要任务,这使得监控成为RingCentral的战略性举措。RingCentral为了与这一举措保持一致,他们需要构建一个可扩展的监控解决方案,以跟上其业务和基础设施的增长。这比他们预想的更具挑战性,因为他们已经超过了Zabbix监控工具集的容量,并需要用提供高可用性和指标粒度的解决方案来替代它。此外,RingCentral还设定了一个目标,即简化他们的流程,更有效地管理开发、配置变更以及不断增长的应用环境中的指标和事件收集,目前该环境大约有400多个不同的“自制”组件,由一支1500人的团队持续开发。
RingCentral选择了迁移到开源的InfluxDB Stack。在评估阶段之后,他们将InfluxDB部署以处理其指标和事件量增长,Telegraf作为安装在每个主机(物理或虚拟)上的代理来收集监控数据,一个Kapacitor池以保证无停机时间(因此不会有触发事件被忽略),以及一个内部构建的Kapacitor Manager来管理他们的Kapacitor实例池。
使用InfluxDB和Telegraf,RingCentral的监控解决方案今天支持可见性、集成配置和警报以实现操作效率,以及快速DevOps周期,以支持其产品(云电话交换机、接触中心、视频和会议、团队消息)的四个支柱以及在这些支柱上构建的功能(开放平台、全球存在、分析和用户体验)。
InfluxDays 演示
在这个演讲中,RingCentral的首席系统架构师Yuri Ardulov将分享如何在RingCentral构建的Kapacitor Manager中使用Kapacitor。
10,000个主机
北美主要区域,拥有2个数据中心(都是裸金属和虚拟的)
2,500万个指标和70万个触发器
收集的指标和定义的触发器
每10秒16,000个指标
需要扩展的需求是明显的 - 单个应用程序会生成大量指标
使用的技术
“我们的一项要求是没有单点故障。我们不能承担InfluxDB出现问题的风险,因为其中存储的指标对我们保持服务正常运行时间承诺至关重要。”