沃尔沃利用 InfluxDB 推进其 DevOps 监控,以实现数据驱动的决策

导航至

生产延误或停工是任何制造商的噩梦。当你是像沃尔沃这样的全球汽车制造商时,即使是微小的延误也可能产生重大的连锁反应。但即使是全球领导者也无法幸免于 IT 问题。

这就是沃尔沃几年前面临的情况。它已经实施了一个旧的 DevOps 监控解决方案,该方案在过去的 15-20 年里一直存在,但该系统已经不再满足公司的需求。表面上,这似乎是一个健壮的系统。实际上,它监控了沃尔沃 99.8% 的 IT 组件。然而,该系统中的许多组件的阈值已经过时或不准确,因此它无法产生开发者想要或需要的可操作数据。

除了纯粹的技术挑战之外,只有少数团队可以访问该解决方案收集的所有数据。当出现问题时,这些团队必须主动通知其他团队成员。这导致了缺乏透明度,沃尔沃的开发者通常只有在问题达到临界点之后才会得知这些问题。随着 IT 相关问题的增加,当这些问题开始影响工厂生产线上的生产时,沃尔沃团队意识到是时候进行改变了。

沃尔沃的 DevOps Enablement 团队抓住了这个机会,开发了一个新的监控和警报解决方案,该方案提供了更准确和可操作的数据、主动警报以及整个开发团队的更大透明度。

该团队首先使用 Grafana 可视化所有数据,以更好地了解问题的严重程度。一旦团队完全理解了情况的范围,他们就在 InfluxDB 核心的基础上构建了一个全新的监控堆栈

How InfluxDB platform is deployed at Volvo Cars

沃尔沃根据数据类型和来源使用多种不同的方法来收集数据,包括Telegraf、自定义脚本和Kafka。所有收集到的数据都通过Telegraf路由,Telegraf会复制数据并将其写入开发和生产集群的数据库中。在同一地点拥有相同的数据使得团队能够在影响生产服务的数据上测试更新。这使得他们能够实时查看更新的结果,并将测试代码更快地推送到生产环境中。

Telegraf收集的数据由InfluxDB分析后,为Grafana服务提供数据以进行可视化。DevOps Enablement团队授予了对此服务的广泛访问权限,以提高监控数据的透明度。沃尔沃内部团队可以在新系统中更轻松地设置和维护阈值。一些团队甚至拥有自己的Kapacitor集群用于警报,在那里他们可以测试更新并快速将其推送到生产环境。

通过授予新的监控系统广泛访问权限,沃尔沃的DevOps Enablement团队提高了监控的透明度,增加了开发者的责任感,并简化了开发流程,使开发人员构建和部署代码更加容易和高效。总的来说,新的监控解决方案帮助沃尔沃成为了一个更加数据驱动的公司。

有关沃尔沃如何使用InfluxDB的更多详细信息,请查看完整案例研究