对于电信公司而言,正常运行时间是首要任务,这使得监控成为 RingCentral 的一项战略举措。为了与这一举措保持同步,他们需要构建一个可扩展的监控解决方案,以跟上其业务和基础设施的增长。事实证明,这比他们意识到的更具挑战性,因为他们已经超出了 Zabbix 监控工具集的容量,需要用一个提供高可用性和指标粒度的解决方案来替代它。此外,RingCentral 还制定了一个目标,即简化其流程,以更有效地管理开发、配置更改以及指标和事件的收集,这些指标和事件来自他们不断增长的应用程序环境,目前大约有 400 多个不同的“自制”组件,由 1,500 名开发人员的团队持续开发。

RingCentral 选择迁移到开源 InfluxDB Stack。在评估阶段之后,他们部署了 InfluxDB 来处理他们的指标和事件量增长,Telegraf 作为安装在每台主机(物理或虚拟)中的代理来收集监控数据,Kapacitor 池用于实现零停机时间(因此不会错过任何触发事件),以及内部构建的 Kapacitor Manager 来管理他们的 Kapacitor 实例池。

今天,借助 InfluxDB 和 Telegraf,RingCentral 的监控解决方案支持其产品的四大支柱(云 PBX、联络中心、视频和会议以及团队消息)以及构建在这些支柱之上的功能(开放平台、全球业务、分析和用户体验)的可视性、集成配置和操作效率警报以及快速的 DevOps 周期。

InfluxDays 演讲

在本次演讲中,RingCentral 的首席系统架构师 Yuri Ardulov 将分享如何将 Kapacitor 与他们在 RingCentral 构建的 Kapacitor Manager 一起使用。