如何使用时间戳数据减少网络停机时间

导航至

本文最初发表于 The New Stack,经授权在此转载。

电信组织需要确保他们拥有必要的资源和技术来维持服务正常运行时间 SLA。

近年来,不断增加的法规和新兴技术迫使电信公司快速发展。这些组织的工程师和站点可靠性工程 (SRE) 团队必须使用技术来提高性能、可靠性和服务正常运行时间。了解 WideOpenWest 如何使用时间序列平台来监控其整个服务交付网络。

电信公司正面临着挑战,这些挑战因公司在其生命周期中所处的位置而异。在整个行业中,企业必须在现代化其基础设施的同时,还要维护遗留系统。与此同时,地方和联邦层面的新法规加剧了行业内的竞争,新企业挑战了当前行业领导者设定的现状。

近年来,在家办公人数的激增需要更可靠的互联网连接来处理他们增加的网络带宽需求。智能手机和其他设备的日益普及意味着需要网络连接的设备更多——所有这些都没有降低网络速度。延迟问题或糟糕的正常运行时间会导致客户不满意,然后他们就会成为流失风险。再加上更频繁的安全漏洞,这需要所有企业监控其网络,以更快地检测到潜在的漏洞。

网络现代化面临的挑战

WideOpenWest (WOW) 于 1996 年在科罗拉多州丹佛市成立,在美国各地不同的市场提供互联网、视频和语音服务。多年来,WOW 收购了多家电信组织,随着其网络的扩展,它需要更好的网络监控工具来应对日益增长的挑战列表。例如,WOW 工程师希望能够分析单个客户的有线调制解调器,确定节点的健康状况并了解网络的总体状态。然而,一些障碍阻止了该公司这样做。WideOpenWest 内部已经使用了多个监控平台,并且购买有助于监控单个节点的硬件成本太高。它已经有一个基本的流程来收集来自特定调制解调器的遥测数据,但是没有单一的事实来源可以将所有内容联系在一起。

使用时间序列数据减少网络延迟

几年前,WideOpenWest 决定更换其遗留的时间序列数据库,在考虑了其他解决方案后,它选择了 InfluxDB,这款专门构建的时间序列数据库。它现在在生产环境中拥有一个四节点的 InfluxDB Enterprise 集群,以及一个在 OpenStack 上运行的用于测试的双节点集群。该团队使用 Ansible 来自动化集群设置和安装。

使用 InfluxDB 的主要动机是提高整个网络的整体可观测性并实施更好的警报。WOW 工程师尽可能使用 Telegraf 进行数据收集,因为它很容易与其他所有系统集成。一些遗留硬件要求他们使用 Filebeats、自定义脚本和供应商 API。

他们在数据收集过程中广泛使用简单网络管理协议 (SNMP) 轮询和陷阱,因为尽管它已经过时,但它仍然是行业标准。具体来说,他们使用 SNMP 从有线调制解调器收集指标,并使用 Telegraf 从他们的虚拟机和容器收集时间戳数据。使用 InfluxDB 为团队提供了必要地灵活性,以绕过供应商管理系统的限制,他们现在可以从所有需要的来源收集数据。

接下来,他们将数据流式传输到 Kafka,以更好地控制数据输入和输出。Kafka 还允许他们在必要时轻松地将数据消费或移动到不同的区域或系统。从 Kafka 集群,他们使用 Telegraf 将数据发送到他们的 InfluxDB Enterprise 集群。

WOW 团队聚合了光纤到节点网络的各种指标,例如

  • 来自超过 650,000 个有线调制解调器的遥测指标,例如使用率和正常运行时间,以五分钟的轮询周期收集。
  • 所有电视频道上游和下游的状态,包括音频和视频信号强度以及中断。
  • 平均信号、端口和功率水平。
  • 信噪比 (SNR)——用于确保最高水平的无线功能。
  • 调制误差比 (MER)——另一种用于了解信号质量的测量方法,它考虑了传输通道上发生的干扰量。

WOW 团队使用所有这些数据从实时分析中获得见解,以创建可视化效果并触发警报和排除故障流程。一旦数据进入 InfluxDB,他们就使用 Grafana 进行所有可视化。他们还利用 InfluxDB 的警报框架通过 ServiceNow、Slack 和电子邮件发送警报。采用 InfluxDB 使 WOW 团队能够实施基础设施即代码 (IaC) 系统,因此他们可以编写配置文件来简化流程,而不是花费时间手动管理其基础设施。

WideOpen-West-InfluxDB-Implementation

WideOpenWest 的 InfluxDB 实施

WideOpenWest 的下一个大项目是实施具有自动化代码晋升的完整 CI/CD 管道。通过这个项目,他们希望改进自动化测试。WOW 还希望简化整个组织的监控并提高基础设施监控的水平。