沃尔沃使用 InfluxDB 改进其 DevOps 监控,以实现数据驱动的决策
作者:Jason Myers / 产品, 使用案例, 开发者
2022 年 1 月 14 日
导航至
生产延误或停工是任何制造商的祸根。当您是一家像沃尔沃这样的全球汽车制造商时,即使是最小的延误也可能产生重大的连锁反应。但即使是全球领导者也无法幸免于 IT 问题。
这就是沃尔沃几年前面临的情况。它有一个使用了 15-20 年的传统 DevOps 监控解决方案,但该系统不再满足公司的需求。从表面上看,这似乎是一个强大的系统。事实上,它监控了沃尔沃 99.8% 的 IT 组件。然而,该系统对许多组件的阈值已经过时或不准确,因此它未能产生开发人员想要或需要的可操作数据。
除了纯粹的技术挑战之外,只有少数团队成员可以访问解决方案收集的所有数据。当出现问题时,需要这个团队主动通知其他团队成员。这造成了缺乏透明度的情况,沃尔沃开发人员通常在问题达到临界点后才发现问题。随着 IT 相关问题的增加,当这些问题开始影响工厂车间的生产时,沃尔沃团队意识到是时候做出改变了。
沃尔沃的 DevOps 赋能团队借此机会开发了一个新的监控和警报解决方案,该解决方案提供了更准确和可操作的数据、主动警报以及更高的整个开发团队的透明度。
该团队首先使用 Grafana 可视化所有数据,以更好地了解问题的程度。一旦团队完全了解了情况的范围,他们就构建了一个全新的以 InfluxDB 为核心的监控堆栈。
沃尔沃使用几种不同的方法来收集数据,具体取决于类型和来源,包括 Telegraf、自定义脚本和 Kafka。所有收集的数据都通过 Telegraf 路由,Telegraf 复制数据并将其写入开发和生产集群中的数据库。在两个位置拥有相同的数据使团队能够在与生产服务相同的数据上测试更新。这使他们能够实时查看更新结果,并将测试代码更快地推送到生产环境。
Telegraf 收集并由 InfluxDB 分析的数据随后馈送到 Grafana 服务以进行可视化。DevOps 赋能团队授予了对该服务的广泛访问权限,以提高监控数据的透明度。沃尔沃内部的团队可以在新系统中更轻松地设置和维护阈值。一些团队甚至拥有自己的 Kapacitor 集群用于警报,他们可以在其中测试更新并快速将其推送到生产环境。
通过授予对新监控系统的广泛访问权限,沃尔沃的 DevOps 赋能团队提高了监控透明度,增强了开发人员的责任感,并简化了开发流程,使开发人员可以更轻松有效地构建和部署代码。总的来说,新的监控解决方案帮助沃尔沃成为一家更加数据驱动的公司。
有关沃尔沃如何使用 InfluxDB 的更多详细信息,请查看完整案例研究。