优化空间技术:使用 InfluxDB 和 Apache Parquet 实现快速数据访问
作者:Jessica Wachtel / 开发者
2024 年 7 月 10 日
导航至
为了赢得太空竞赛,航空航天公司必须快速行动。测试、可视化测试数据和改进的端到端周期需要快速,尤其是在单次发射产生数十亿个数据点的情况下。这一切都始于实时访问数据。当生命危在旦夕时,纳秒级精度的实时数据分析对于监控环境和栖息地条件至关重要。
加速迭代管道至关重要,但这还不够。成本效率也很重要。航空航天创新成本高昂,而强大的数据分析实践可以节省资金。使用数据来指导决策可以优化流程,并确保首次就能正确构建空间技术,从而降低成本和浪费。
访问生产系统数据是另一个挑战。将遥测数据拉入数据库是一回事;共享对该数据的访问权限是另一回事。当设备在飞行中时,传入的数据至关重要。任何与预期值的偏差都必须立即传达给工程师以采取快速行动。然而,一旦数据老化,更多的团队和数据科学家需要查询和分析这些数据,以进行进一步的改进并继续迭代过程。
InfluxDB 3.0 和 Apache Parquet 有助于在整个组织内实现快速数据访问,消除供应商锁定的限制。这些工具确保在整个产品管道中可靠地访问数据,帮助加速迭代、降低成本并提供快速、准确的数据访问。通过选择来自开放数据生态系统的软件,您可以保护您的团队和数据,同时加速创新。
为什么选择 InfluxDB 和 Apache Parquet?
专用时间序列数据库 InfluxDB 是实现更快数据访问和可用性的门户。InfluxDB 实时处理高速率和高容量的时间序列数据,并将这些数据持久化为 Apache Parquet 文件。Parquet 已成为开放数据生态系统中的标准。这意味着在 InfluxDB 摄取数据后,任何有权访问数据库的人都可以轻松地从生产系统下载 Parquet 文件,并将数据加载到参与开放数据生态系统的众多工具或另一个 InfluxDB 实例中。
这消除了自定义数据格式、巨型 CSV 下载和上传的需要,并促进了对生产系统的有限访问。通过参与开放数据生态系统,Parquet 允许用户将时间序列数据的价值和效用扩展到以前不可能的其他领域和应用。
Parquet 是一种开源、列式数据文件格式,专为快速处理复杂数据而设计。Parquet 支持每个列的不同编码和压缩方案,从而可以批量高效地存储和检索数据。许多开源项目采用了该标准。Delta Lake,Apache Iceberg,Snowflake,Hive,Spark,Redshift,Google BigQuery 和 Pandas 是一些采用 Parquet 标准的工具。它们可供在开放数据生态系统中工作的所有组织使用。许多这些项目都围绕对象存储,使用 Parquet 文件和弹性查询层来处理文件而构建。
从几乎任何系统或设备将数据导入 InfluxDB 也非常顺畅。开源的基于服务器的代理 Telegraf 从无数数据库、系统和传感器收集数据。Telegraf 拥有 300 多个插件,使 InfluxDB 成为任何技术堆栈的无缝补充。
除了将 Parquet 文件移动到其他系统之外,在 InfluxDB 内部处理数据也为技术集成的所有阶段带来了巨大的好处。由于 InfluxDB 本身是开放数据生态系统的一部分,因此它将您连接到自动化、机器学习和人工智能工具,从而加快上市时间。这包括仪表板软件 Grafana、Tableau 和 Power BI。通过与领先的 ML/AI 工具(如 Tensorflow 和 Petastorm)集成,获得改进的洞察力,从而获得竞争优势。
立即试用 InfluxDB
准备好开始使用 Parquet 文件了吗?立即注册一个 免费云账户。如果您不确定您的工作负载大小,并想了解更多关于 InfluxDB 的功能,请在此处联系我们的销售团队。