使用 InfluxDB 进行基础设施监控 | 现场演示

立即观看

Apache Arrow

Apache Arrow 是一个与语言无关的软件框架,用于开发处理列式数据的数据分析应用程序。它包含一个标准化的面向列的内存格式,能够表示平面和分层数据,以实现高效的分析操作。

Apache Arrow 于 2016 年由众多开源数据项目的开发者创立,旨在将数据库和数据科学社区聚集在一起,共同协作开发共享的计算技术。它包括一个与语言无关的软件框架,用于开发处理列式数据的数据分析应用程序。其标准化的面向列的内存格式能够表示平面和分层数据,以实现高效的分析操作并降低成本,并且是处理大型数据集时更有效的方法。列式数据表示可以产生更好的压缩,并且还可以加快某些查询的速度,因为编译器和 CPU 可以进行更多的并行计算。分析系统通常使用 Apache Arrow 来处理存储在 Apache Parquet 文件中的数据。

Arrow 项目分为 2 个部分

  1. 一组内存格式规范
  2. 关键编程语言的标准库

Apache Arrow 与 Apache ParquetApache Flight SQL、Apache Spark、NumPy、PySpark、pandas 和其他数据处理库协同工作,并包含 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust 中的原生库。


How Apache Arrow deframents Data Access

Apache Arrow 如何消除数据访问碎片


Arrow 的优势

  • 所有系统都使用相同的内存格式
  • 跨系统通信没有开销
  • 可互操作(数据交换)
  • 可嵌入(在执行引擎、存储层等中)

掌控您的运营,并将存储成本降低 90%

免费开始使用 运行概念验证

无需信用卡。

quote-shape
DBU logo

免费 InfluxDB 培训

通过免费的自定进度和讲师指导的培训,快速开始您的 InfluxDB 之旅。

dbu-illustration