使用InfluxDB进行基础设施监控 | 现场演示

立即观看

Apache Arrow

Apache Arrow是一个面向开发数据分析应用的、与语言无关的软件框架,用于处理列式数据。它包含一个标准的列式内存格式,能够表示扁平化和分层数据,以进行高效的分析操作。

Apache Arrow成立于2016年,由众多开源数据项目的开发者创建,旨在将数据库和数据分析社区聚集在一起,共同协作开发共享的计算技术。它包括一个面向开发处理列式数据的数据分析应用的、与语言无关的软件框架。其标准的列式内存格式能够表示扁平化和分层数据,以进行高效的分析操作和降低成本,当处理大量数据时,这是一个更有效的方法。列式数据表示可以提供更好的压缩效果,还可以加快某些查询的执行速度,因为编译器和CPU可以进行更多的并行计算。分析系统通常使用Apache Arrow来处理存储在Apache Parquet文件中的数据。

Arrow项目分为两部分

  1. 内存格式的规范集
  2. 关键编程语言的标准化库

Apache Arrow 与 Apache ParquetApache Flight SQL、Apache Spark、NumPy、PySpark、pandas 等数据处理库兼容,并包含 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust 等语言的本地库。


How Apache Arrow deframents Data Access

Apache Arrow 如何优化数据访问


使用 Arrow 的优势

  • 所有系统使用相同的内存格式
  • 跨系统通信无额外开销
  • 可互操作(数据交换)
  • 可嵌入(执行引擎、存储层等)

掌握您的操作,并降低 90% 的存储成本

免费开始 运行概念验证

无需信用卡。

quote-shape
DBU logo

免费 InfluxDB 培训

通过免费的自主学习或导师指导培训,开始您的 InfluxDB 之旅。

dbu-illustration