使用时间序列数据库进行存储预测,将未来掌握在客户手中
作者:Chris Churilo / 产品,用例,开发者
2020年6月18日
导航至
当风险巨大时,每一个决策的优劣都取决于其背后的信息。有了正确的信息,企业和关键部门可以自信地做出明智的决策。数据成为行动的基础——以及区别化的来源。但您如何存储源源不断的数据流——尤其是在数据存储成本,以及数据丢失风险等因素成为组织面临的主要障碍之一的情况下呢?
通过存储预测进行主动支持
Veritas Technologies,数据备份中心与恢复的领导者,面临着管理数据存储成本等挑战。Veritas Technologies 的使命是让人们能够利用信息的力量,提供一系列完整的数据保护和长期保留设备,确保数据可用性,降低成本和复杂性,同时提高运营效率。其中包括 NetBackup 设备(NetBackUp 是企业级备份与恢复软件的领导者,常用于数据中心备份)。
Veritas 在内部积极部署了超过 10,000 台 NetBackup 设备,并使用自动支持和每日报告,收集多种类型的遥测数据。此前,Veritas 通过自动支持功能来衡量问题。他们拥有多年的 Veritas AutoSupport 信息和来自部署设备的数十亿个遥测数据点。但他们没有进行预测性分析的任何分析,以预防问题发生。可视性只是一个后视镜。如果设备存储不足,则备份失败。备份失败意味着在此时刻,如果公司基础设施发生任何类型的事件,就有数据丢失的风险。
Veritas 需要通过 NetBackup 设备积极减少停机时间,以降低风险并为客户节省成本,因此他们构建了Veritas Predictive Insights:一个 SaaS 平台,利用人工智能 (AI) 和机器学习 (ML) 为 Veritas 设备客户提供预测性支持服务,通过检测潜在问题并提供预防性修复措施,在问题发生之前提供预测性支持。存储预测在 Veritas Predictive Insights 中运行,以跟踪 NetBackup 设备的存储消耗并减少停机时间。
什么是预测?
预测是根据现在和过去的数据对未来进行预测的过程。预测背后的关键假设是环境变化的方式将继续在未来持续。由于预测存在误差,使其有用的原因是,在给定预测中涉及到的误差对于解决的使用案例类型很小。
存储预测的应用
大量时序数据(来自Veritas的AutoSupport功能内部收集)的可用性为多个用例的预测提供了可能。其中最重要的是存储预测。Veritas预测洞察生成的预测分析,通过使用历史数据对可能事件进行预测,提供了可见性和预防措施。Veritas希望利用存储使用预测来
- 资源规划
- 检测工作负载异常
- 识别可能的数据不可用或SLA违规
- 利用销售机会
Veritas预测洞察建立在多年的Veritas AutoSupport信息和超过10万台Veritas设备数以亿计的遥测数据点之上。Veritas之前一直内部使用这些数据,为支持工程师提供帮助,当工程师接听关于特定问题的电话时。客户也可以通过登录他们的支持账户来访问这些数据。但从中没有预测功能。他们没有这样的引擎。
解决存储预测自动化的挑战
一旦Veritas在其机器学习平台上建立了硬件设置,他们就需要自动化存储预测。这提出了许多挑战,因为他们有超过10万台设备。对于每台设备,他们都需要预测每种存储分区的类型。手动运行如此庞大的数据量的预测是不可能的,因此他们需要自动化存储预测。
挑战在于自动化一个历史上手动的过程,该过程是为分析只有几十个数据点的单个数据系列而量身定制的,到大规模处理数千个时序和数百万个数据点。下一步自然是什么?选择一个 时序数据库。
使用时序数据库进行大规模时序预测
Veritas选择了InfluxDB时序数据库来实施其解决方案,以处理大规模时序预测问题,包括连续精度评估和算法超参数优化。他们使用InfluxDB在Veritas预测洞察中对数据进行存储预测,每天可以训练、评估和预测超过70,000个时序。Veritas选择InfluxDB,因为它专为时序数据设计。这使得处理时序数据比其他类型的数据库更容易。
定制机器学习平台架构
<figcaption> Veritas Technologies的定制机器学习平台设计</figcaption>
基于AI和ML的数据和基础设施自主管理
对于每台设备,遥测数据生成一个系统可靠性评分(SRS)——一个简单的健康评分,使用加法机器学习(ML)模型。该模型聚合来自不同ML过程的输入,以预测设备健康并以易于理解的方式显示结果。
<figcaption> 来自复杂聚合的简单分数。 图片来源</figcaption>
SRS越高,设备的运行情况越好,意外停机的可能性越低。
解决预测自动化的三个挑战
为了自动化存储预测的实施,Veritas必须克服预测自动化的三个挑战
1- 确定最佳模型
根据他们拥有的数据类型选择最佳模型可以手动完成,因为他们假设数据来自类似来源。但仍然存在许多问题,例如如何处理缺失值、异常值、趋势和季节性、趋势变化点以及算法参数。他们通过算法调整、高级检测方法和预测工具来解决这些问题。
2- 评估模型在生产中的准确性
每次运行模型时,都会生成一个准确性结果。他们将此结果存储为带有时间戳的百分比到InfluxDB中,以便可以监控模型准确性随时间的变化。当模型准确性低于某个阈值时,他们可以回过头来更改模型或更改模型内的参数,以提高预测的准确性。
数据越多,预测越准确,但处理速度越慢。为了解决这个问题,你根据准确性对这些模型进行调整,这就是时间序列数据的目的:监控性能随时间的变化。你想监控模型性能,这将触发对模型和模型参数的重新审视。
3- 持续调整模型
他们必须解决几个模型更新问题。他们有成千上万的模型,每个模型都必须针对特定的时序数据进行调整(即,他们需要调整70,000多个模型)。他们还需要适应底层过程的变化,以保持模型准确性。此外,回测在计算上过于昂贵,但他们有在线验证数据。为了解决这些问题,他们依赖于一种称为基于序列模型优化的数学工具(SMBO),该工具在拟合模型和使用它们来做出配置选择之间迭代。SMBO方法根据历史测量值按顺序构建模型,以近似超参数的性能,然后根据这些模型选择新的超参数进行测试。
预测分析提供主动支持
Veritas Predictive Insights的基于云的AI/ML引擎今天利用来自数千台Veritas设备的加密数据,检测潜在问题并监控系统健康,以创建主动和规定的修复方案。Veritas Predictive Insights提高了Veritas产品和客户满意度,并帮助客户
- 提高运营可用性
- 在发生之前解决潜在问题
- 通过优化存储投资和避免过度配置来降低TCO
<figcaption>Veritas预测洞察始终在线并持续学习。图片来源</figcaption>
了解的技术,行动的知识
Veritas平台上的持续AI/ML自学习过程不断改进见解和准确性,识别模式,预测趋势,并通过智能预测和预测维护优化弹性和利用率。
由InfluxDB作为其时间序列数据库提供动力,Veritas Predictive Insights为新的和现有的安装提供即时价值,并具有预防性支持服务,可以在问题发生之前减轻问题。
对于Veritas及其NetBackup设备客户而言,通过预测分析洞察未来,使他们能够及时行动——这在组织决策、服务和安全结果方面可能产生重大影响。
了解更多关于此预测自动化用例。
如果您有兴趣分享您的InfluxDB故事,请点击这里。