NetApp 专门帮助客户通过行业领先的云数据服务、存储系统和软件,最大程度地发挥其数据的价值。该公司将您依赖的企业级数据服务引入云端,并将云的简单灵活性引入数据中心。NetApp 的解决方案可在各种环境和全球最大的云中工作。

NetApp 使用 InfluxDB 进行实时资源趋势分析、SLO/SLI 计算和警报。SRE 团队非常依赖于识别其基础设施、数据库监控和自定义资源监控中关键 Linux 服务器的资源消耗趋势的能力。该公司一直在使用 TICKscript 进行降采样和警报,但现在开始研究使用 Flux。

该公司发现 InfluxDB 具有高摄取率,与其他工具集成良好,并且性能极佳。他们能够高效地监控多个系统,并与 Grafana 集成(这是他们显示仪表板的首选方法)。他们还发现 Slack 集成非常有用,因为这是该团队在全球范围内进行通信的方式。如果他们通过存储在 InfluxDB 中的数据触发了警报,他们在印度的团队成员可以与美国的团队成员同时看到警报,从而使公司能够协调快速响应。

首席站点可靠性工程师 Dustin Sorge 认为 InfluxDB 在存储和处理时间序列数据方面非常有效。对于 SRE 团队而言,时间序列数据使他们能够有效地检测可能导致其环境内故障情况的趋势。通过 Telegraf 收集的系统数据在调查故障情况(内存使用率、CPU 使用率等趋势)时也很有用,这对于 SRE 事后分析流程至关重要。

Sorge 建议查看 Slack 集成。NetApp 当前正在使用 Kapacitor 通过 Webhooks 向 Slack 发送警报。这使他们全球分布的团队能够以存储在 InfluxDB 中的时间序列数据为基础无缝协作。Sorge 还期待着查看 Telegraf 中的 Starlark