数据存储成本节省高达 96%
作者:Rick Spencer / 产品
2023年7月5日
导航至
在效用和成本之间的痛苦权衡
具有实时和其他分析工作负载的用户需要或希望保留大量历史数据,以帮助进行重要活动,例如临时历史趋势分析和训练 AI 模型。
然而,以易于查询的方式存储这么多数据变得过于昂贵。因此,用户必须在数据可用性和可用性之间进行权衡,同时牺牲数据准确性和存储成本。
但现在不再是如此。有了 InfluxDB 3.0,用户不需要在所需数据与存储成本之间进行选择。我们设计它是为了让用户能够以成本效益的方式保留和查询大量数据。
InfluxDB 的工作原理
InfluxDB 3.0 使用 Parquet 文件作为底层文件存储。InfluxDB 工程师花费两年时间对 InfluxDB 3.0 进行微调,以从 Parquet 中提取每一丝效率。他们的努力成果是,存储在 InfluxDB 3.0 中的数据在磁盘上占用的空间比任何其他数据库都少。
不满意仅仅压缩的好处,InfluxDB 工程师更进一步,为分布式环境设计了 InfluxDB 3.0。这意味着 InfluxDB 可以在低成本对象存储中存储这些 Parquet 文件,同时保持对该数据的查询性能。这实际上消除了在数据存储成本、可用性和准确性之间进行权衡的需要。
数学很简单
那么,为什么标题声称可以节省高达 96% 的存储成本?我们并没有从空中拉出 96% 的数字。它来自一位真实客户的经验。这位客户使用 InfluxDB OSS 1.8 和 2.0 中的 TSM 存储引擎收集大量物联网设备数据。
设磁盘上的字节为 x。那么,InfluxDB 3.0 将相同数据量的磁盘空间压缩到一半。然后,对象存储成本大约是附加磁盘的 7.69%。
节省
= 压缩系数 * 对象存储成本比率
= 2 * 7.69%
~= x * 4%
需要注意的是,InfluxDB 1.8 已经在磁盘上高效压缩数据。如果客户使用类似 ClickHouse 的解决方案,节省效果将更加明显。
InfluxDB 3.0 相比其开源前辈的优势是显著和重大的。 自己试试看。