NetApp 专注于通过行业领先的云数据服务、存储系统和软件帮助客户充分挖掘数据价值。该公司将企业级数据服务带入云端,并将云端的简单灵活性带入数据中心。NetApp 的解决方案适用于各种环境和世界上最大的云。
NetApp 使用 InfluxDB 进行实时资源趋势分析、SLO/SLI 计算,以及警报。SRE 团队非常依赖识别其基础设施中关键 Linux 服务器的资源消耗趋势的能力,数据库监控和自定义资源监控。该公司一直使用 TICKscript 进行降采样和警报,但现在开始考虑使用 Flux。
该公司发现 InfluxDB 具有高吞吐量,与其他工具集成良好,性能极高。他们能够高效地监控多个系统,并与 Grafana 集成,这是他们首选的仪表板显示方式。他们还发现 Slack 集成 非常有用,因为团队使用 Slack 进行全球沟通。如果他们通过存储在 InfluxDB 中的数据进行警报,印度团队成员可以与美国团队成员同时看到警报,从而使公司能够协调快速响应。
首席站点可靠性工程师 Dustin Sorge 喜欢的是 InfluxDB 在存储和处理时间序列数据方面的高效性。对于 SRE 团队来说,时间序列数据使他们能够高效地检测可能导致其环境中失败条件(如内存使用、CPU 使用等趋势)的趋势。通过 Telegraf 收集的系统数据在调查失败条件时也很有用,这对于 SRE 的复盘过程至关重要。
Sorge 建议查看 Slack 集成。NetApp 目前正在使用 Kapacitor 通过 Webhooks 通知 Slack。这使他们的全球分布式团队能够无缝地使用存储在 InfluxDB 中的时间序列数据作为基础。Sorge 还期待尝试 Telegraf 中的 Starlark。