节省 96% 的数据存储成本

导航至

实用性和成本之间的痛苦权衡

具有实时和其他分析工作负载的用户希望或需要保留大量的历史数据,以辅助重要的活动,例如即席历史趋势分析和训练人工智能模型。

然而,以一种也使其易于查询的方式存储如此多的数据变得非常昂贵。因此,用户必须在数据可用性和可用性之间取得平衡,同时牺牲数据保真度和存储成本。

直到现在才得以改变。借助 InfluxDB 3.0,用户无需在所需数据和存储成本之间做出选择。我们的设计旨在让用户能够以经济高效的方式保留和查询大量数据。

InfluxDB 的工作原理

InfluxDB 3.0 使用 Parquet 文件作为底层文件存储。InfluxDB 工程师花费了两年时间微调 InfluxDB 3.0,以从 Parquet 中榨取每一丝效率。他们努力的结果是,与任何其他数据库相比,存储在 InfluxDB 3.0 中的时间序列数据占用更少的磁盘空间。

InfluxDB 工程师不满足于仅仅压缩增益,他们更进一步,为分布式环境设计了 InfluxDB 3.0。这意味着 InfluxDB 可以将这些 Parquet 文件存储在廉价的对象存储中,同时保持对这些数据的高性能查询。这有效地消除了在数据存储成本、可用性和保真度之间进行权衡的需要。

数学计算很简单

那么,为什么标题声称可以节省高达 96% 的存储成本呢?我们并非凭空捏造 96% 这个数字。它来自一位真实客户的经验。这位客户正在使用 InfluxDB OSS 1.8 和 2.0 中的 TSM 存储引擎收集大量的 IoT 设备数据。

假设磁盘上的字节数为 x。那么,对于相同数量的数据,InfluxDB 3.0 压缩后仅占用原来一半的磁盘空间。然后,对象存储成本约为附加磁盘的 7.69%。

节省
= 压缩率 * 对象存储成本比率
= 2 * 7.69%
~= x * 4%

这里需要注意的是,InfluxDB 1.8 已经可以高效地压缩磁盘上的数据。如果客户使用的是像 ClickHouse 这样的解决方案,那么节省效果会更加显著。

InfluxDB 3.0 相对于其开源前辈的优势是显著而重大的。亲自尝试一下吧。