如何使用带时间戳的数据来减少网络中断时间
作者:Caitlin Croft / 用例
2023年2月10日
导航到
本文最初发表在The New Stack上,并经许可在此重发。
电信组织需要确保他们拥有维护服务可用性SLA所需的所有资源和技术。
近年来,法规的增加和新兴技术的出现迫使电信公司迅速发展。这些组织的工程师和站点可靠性工程(SRE)团队必须利用技术来提高性能、可靠性和服务可用性。了解WideOpenWest如何使用时序平台来监控其整个服务交付网络。
电信行业趋势
电信公司面临着根据公司在生命周期中的位置而变化的挑战。在整个行业中,企业必须现代化其基础设施,同时维护遗留系统。与此同时,地方和联邦层面的新法规增加了行业内的竞争,新企业挑战了当前行业领导者设定的现状。
近年来,远程办公人数的增加需要更可靠的互联网连接来处理他们增加的网络带宽需求。智能手机和其他设备越来越受欢迎,这意味着需要网络连接的设备越来越多——而网络速度没有降低。延迟问题或可用性差会导致客户不满意,进而成为流失风险。再加上更频繁的安全漏洞,这要求所有企业更快地检测潜在的漏洞。
网络现代化的挑战
成立于1996年的WideOpenWest(WOW)是一家在科罗拉多州丹佛提供互联网、视频和语音服务的公司。多年来,WOW收购了多家电信组织,随着网络的扩展,它需要一个更好的网络监控工具来解决日益增长的问题清单。例如,WOW的工程师希望能够分析单个客户的电缆调制解调器,确定节点的健康状况,并理解网络的总体状态。然而,一些障碍阻止了公司这样做。WideOpenWest已经在内部使用多个监控平台,购买辅助监控单个节点的硬件成本过高。它已经建立了一个基本流程来收集特定调制解调器的遥测数据,但没有一个单一的真实来源来整合所有内容。
使用时序数据来减少网络延迟
几年前,WideOpenWest决定替换其遗留的时序数据库,并在考虑其他解决方案后,选择了专为时序数据库设计的InfluxDB。现在,它有四个InfluxDB Enterprise节点集群在生产环境中运行,以及一个在OpenStack上运行的两个节点集群用于测试。该团队使用Ansible来自动化集群设置和安装。
使用InfluxDB的主要动机是提高整个网络的总体可观察性,并实现更好的警报功能。WOW工程师尽可能使用Telegraf进行数据收集,因为它可以轻松与其他系统集成。一些旧式硬件要求他们使用Filebeats、自定义脚本和供应商API。
他们在数据收集过程中广泛使用简单网络管理协议(SNMP)轮询和陷阱,尽管该协议已经存在一段时间,但仍然是行业标准。具体来说,他们使用SNMP从调制解调器收集指标,使用Telegraf从虚拟机和容器中收集带时间戳的数据。使用InfluxDB为团队提供了必要的灵活性,以克服供应商管理系统带来的限制,他们现在收集来自所有所需来源的数据。
接下来,他们把数据流式传输到Kafka,以更好地控制数据的输入和输出。如果需要,Kafka还允许他们轻松地将数据消费或移动到不同的区域或系统。从Kafka集群中,他们使用Telegraf将数据发送到他们的InfluxDB Enterprise集群。
WOW团队从光纤到节点网络中汇总各种指标,例如
- 从超过65万个调制解调器在五分钟轮询周期内收集的遥测指标,如使用情况和运行时间。
- 上游和下游所有电视频道的状态,包括音频和视频信号强度和中断。
- 平均信号、端口和功率水平。
- 信噪比(SNR)——用于确保无线功能的最高水平。
- 调制错误比(MER)——另一个用于理解信号质量的测量,考虑到传输通道上发生的干扰量。
WOW团队使用所有这些数据通过实时分析获得洞察力,以创建可视化、触发警报和解决问题。一旦数据进入InfluxDB,他们使用Grafana进行所有可视化。他们还利用InfluxDB的警报框架通过ServiceNow、Slack和电子邮件发送警报。采用InfluxDB使WOW团队能够实现基础设施即代码(IaC)系统,因此,他们可以编写配置文件来简化过程,而不是花费时间手动管理他们的基础设施。
WideOpenWest的下一个重大项目是实现完整的CI/CD管道,并实现自动代码推广。通过这个,他们希望提高自动化测试。WOW还希望简化组织内的所有监控,并提高基础设施监控的水平。