使用时序数据库实现存储预测自动化,今日将未来掌握在客户手中

导航至

当风险很高时,每个决策的好坏都取决于其背后的信息。 借助正确的信息,企业和重要部门可以自信地做出明智的决策。 数据成为行动的基础——以及差异化的来源。 但是,您如何存储源源不断的数据涌入——尤其是在数据存储成本因数据丢失的风险而放大,成为当今组织面临的最大障碍之一的情况下?

通过存储预测提供主动支持

管理数据存储成本是 Veritas Technologies(数据备份中心和恢复领域的领导者)正在应对的挑战之一。Veritas Technologies 的使命是使人们能够驾驭信息的力量,提供完整的数据保护和长期保留设备系列,确保数据可用性,降低成本和复杂性,同时提高运营效率。 其中包括 NetBackup 设备(NetBackup 是企业领先的备份和恢复软件,通常用于备份数据中心)。

Veritas 部署了超过 10,000 台 NetBackup 设备,这些设备积极使用自动支持和日常报告,内部使用多种类型的遥测数据。 以前,Veritas 通过其自动支持功能来衡量问题。 他们拥有多年的 Veritas AutoSupport 信息和来自其已部署设备的数亿个遥测数据点。 但是,他们没有任何用于预测的分析来防止问题的发生。 可见性是后视镜式的。 如果设备存储空间耗尽,则备份失败。 备份失败意味着,在那个时间点,如果公司的基础设施中发生任何类型的事件,则存在数据丢失的风险。

Veritas 需要主动减少 NetBackup 设备的停机时间,以便降低客户的风险并节省成本,因此他们构建了 Veritas Predictive Insights:一个 SaaS 平台,它使用人工智能 (AI) 和机器学习 (ML) 为 Veritas 设备客户提供预测性支持服务,方法是检测潜在问题并在问题发生之前提供规范性补救措施。 存储预测在 Veritas Predictive Insights 中运行,以跟踪 NetBackup 设备的存储消耗并减少停机时间。

什么是预测?

预测是根据当前和过去的数据对未来进行预测的过程。 预测背后的关键假设是,环境变化的方式将持续到未来。 由于预测容易出错,因此使预测有用的原因是,对于所处理的用例类型,给定预测中涉及的误差很小。

存储预测用途

大量时序数据(从 Veritas 的 AutoSupport 功能内部收集以供使用)的可用性使多种用例的预测成为可能。 最重要的是存储预测。 Veritas Predictive Insights 生成的预测分析使用过去的数据提供对可能事件的预测,从而实现可见性和预防措施。 Veritas 希望利用存储使用情况预测来进行

  • 资源规划
  • 工作负载异常检测
  • 识别可能的数据不可用或 SLA 违规
  • 把握销售机会

Veritas Predictive Insights 构建于多年的 Veritas AutoSupport 信息和来自超过 10,000 台 Veritas 设备的数亿个遥测数据点之上。 Veritas 以前一直在内部使用这些数据,供其支持工程师在接到关于特定问题的电话时使用。 客户还可以通过登录其支持帐户来访问此数据。 但是,它没有预测功能。 他们没有引擎。

解决存储预测自动化的挑战

一旦 Veritas 在其 ML 平台中构建了硬件设置,他们就需要自动化存储预测。 这带来了很多挑战,因为他们有超过 10,000 台设备。 对于每台设备,他们都预测每种类型的存储分区。 手动运行如此庞大的数据量的预测是不可能的,因此他们需要自动化存储预测。

挑战在于将历史上手工制作的、用于分析仅包含数十个数据点的单个数据序列的手动流程自动化,以实现对数千个时间序列和数百万个数据点的大规模处理。 自然的下一步是什么? 选择一个时序数据库

使用时序数据库进行大规模时序预测

Veritas 选择了 InfluxDB 时序数据库 来实施其解决方案,以解决大规模时序预测的问题,包括持续的准确性评估和算法超参数优化。 他们在 Veritas Predictive Insights 的数据存储预测实施中使用 InfluxDB,该平台能够每天训练、评估和预测超过 70,000 个时间序列。 Veritas 选择 InfluxDB 是因为它专为时序数据而构建。 这使得处理时序数据比其他类型的数据库更容易。

自定义 ML 平台架构

custom ML platform<figcaption> Veritas Technologies 的自定义 ML 平台设计</figcaption>

基于自主 AI 和 ML 的数据和基础设施管理

对于每台设备,遥测数据都会生成系统可靠性评分 (SRS)——使用加法机器学习 (ML) 模型的简单健康评分。 该模型聚合来自不同 ML 流程的输入,以预测设备健康状况,并以易于理解的格式显示结果。

time series storage forecasting<figcaption> 来自复杂聚合的简单评分。图片来源。</figcaption>

SRS 越高,设备运行状况越好,计划外停机的可能性越低。

解决预测自动化的三个挑战

为了自动化存储预测实施,Veritas 必须克服预测自动化的三个挑战

1- 确定哪个模型是最佳模型

选择最适合他们拥有的数据类型的模型可以手动完成,因为他们假设数据来自相似的来源。 但是,仍然存在许多问题,例如他们如何处理缺失值、异常值、趋势和季节性、趋势变化点以及算法参数。 他们通过算法调整、高级检测方法和预测工具来解决这些问题。

2- 评估模型在生产中的准确性

每次运行模型时,都会生成准确性结果。 他们将此结果作为百分比与时间戳一起存储在 InfluxDB 中,以便他们可以随着时间的推移监控模型准确性。 当模型准确性低于某个阈值时,他们可以返回以更改模型或更改模型内的参数,以提高预测能力。

数据越多,您的预测就越有可能准确,但处理速度越慢。 为了解决这个问题,您需要根据准确性对这些模型进行调整,而这就是时序数据的全部目的:随着时间的推移监控性能。 您希望监控模型的性能,这将触发对模型和模型参数的重新审视。

3- 持续调整模型

他们必须解决几个模型更新问题。 他们有数千个模型,每个模型都必须针对特定的时间序列进行调整(即,他们需要调整超过 70,000 个模型)。 他们还需要适应底层过程的变化以保持模型的准确性。 此外,回溯测试在计算上过于昂贵,但他们拥有在线验证数据。 为了解决这些问题,他们依赖于一种称为顺序模型优化 (SMBO) 的数学工具,该工具在拟合模型和使用模型之间迭代,以选择要探索哪些配置。 SMBO 方法顺序构建模型,以根据历史测量值近似超参数的性能,然后根据这些模型选择要测试的新超参数。

预测分析以提供主动支持

Veritas Predictive Insights 的云端 AI/ML 引擎利用来自数千台 Veritas 设备的加密数据,如今可以检测潜在问题并监控系统健康状况,从而创建主动和规范性补救措施。 Veritas Predictive Insights 提高了 Veritas 产品和客户满意度,并帮助客户

  • 提高运营可用性
  • 在潜在问题发生之前解决它们
  • 通过优化存储投资和避免过度配置来降低 TCO

Veritas predictive insights - storage forecasting<figcaption> Veritas Predictive Insights 始终在线,并且始终在学习。图片来源。</figcaption>

掌握技术,运用知识

Veritas 平台中持续的 AI/ML 自学习流程不断提高洞察力和准确性,通过智能预测和预测性维护来识别模式、预测趋势并优化弹性和利用率。

Veritas Predictive Insights 由 InfluxDB 作为其时序数据库提供支持,为新安装和现有安装提供即时价值,其规范性支持服务可以缓解问题于未然。

对于 Veritas 及其 NetBackup 设备客户而言,通过预测分析洞察未来,能够及时采取行动——这可以使组织决策、服务和安全结果大相径庭。

了解有关此预测自动化用例的更多信息。

如果您有兴趣分享您的 InfluxDB 故事,请单击此处