Apache DataFusion Meetup：芝加哥 2024 年 12 月回顾

作者：Andrew Lamb / 开发者
2025 年 1 月 6 日

导航至

上周，我参加了在伊利诺伊州芝加哥举行的 Apache DataFusion Meetup 并发表了演讲。受到 Sami Tandogdu ’s (Synnada) 精彩的 DataFusion 贝尔格莱德 meetup 回顾的启发，我想我也应该尝试一下。

首先，非常感谢 1871、Pydantic 和（当然）InfluxData 赞助本次活动；感谢 Adrian 完成了大部分组织工作；感谢 Xiangpeng 和 Adrian 提供的部分照片。大约 25 位 DataFusion 爱好者参加了本次聚会，听取了项目贡献者的演讲，并讨论了未来的想法。这次聚会感觉有些独特，因为几乎所有与会者都在他们的产品或项目中使用 DataFusion。这引发了一些精彩的讨论，并让人真切地感受到 DataFusion 的采用率正在提高。以下是四场专题讲座的摘要

“使用 DataFusion 构建实时数据湖”

Adrian Garcia Badaracco - Pydantic 创始工程师第一个演讲者是 Pydantic 的创始工程师 Adrian。他的团队正在为 pydantic LogFire（一个可观测性平台）构建数据库。Adrian 概述了 Pydantic 如何使用 DataFusion 构建近乎实时的可观测性数据数据湖，并详细介绍了他们的索引和元数据存储。视频 / 幻灯片

“在机器人技术中使用 DataFusion 进行实践数据科学”

Tim Saucer - May Mobility 仿真与基础设施总监接下来是 Tim Saucer，他是 DataFusion 的贡献者和提交者，他专注于 Python 绑定。Tim 谈到了机器人技术中的数据科学，以及如何使用 DataFusion 来解决该领域特有的一些挑战。视频 / 幻灯片

“DataFusion 的实用分解缓存”

Xiangpeng Hao (@XiangpengHao) - UW Madison 博士生下一位演讲者是 Xiangpeng Hao，他是威斯康星大学麦迪逊分校的四年级博士生，研究和构建数据库和存储系统。他谈到了他构建 SplitSQL 的工作，SplitSQL 是一个用于现代数据分析的分解缓存，也是基于 DataFusion 构建的。他曾是 InfluxData 的实习生，并在该职位上为 Apache DataFusion 中的 StringView 集成和 Parquet 元数据做出了重要贡献。视频 / 幻灯片

“使用 FDAP 堆栈构建 InfluxDB 3.0”

Andrew Lamb (@alamb) - InfluxData DataFusion 首席工程师、PMC 主席最后，轮到我谈谈我们为什么以及如何使用 FDAP 堆栈构建 InfluxDB 3.0 的理由，重点是 DataFusion 方面。很抱歉照片有点傻，而且我忘记打开麦克风进行录音。视频（没有声音 🤦 ）/ 幻灯片

除了演讲者之外，很高兴见到 Alex Wilcoxson、Michael Maletich 和 Relativity Software 的其他成员，他们正在使用 DataFusion 构建文档发现平台，以及 DataFusion-Python 的名人 Michael Ward。出席的还有 Camuel Gilyadov 和 Sergei Turukin（来自 Embucket），他们正在开发一个新的 DataFusion 驱动的项目，以及 Influxer 同事 Devan Benz，他正在研究数据库内部结构。午餐后，我们进行了一些关于项目未来、构建二级索引、性能和 DataFusion-Python 路线图等主题的非正式对话。

虽然与其他人会面有些累人，但我认为在项目发展的这个阶段，这非常重要。随着 DataFusion 的应用逐渐普及，建立一个能够长期维持该项目的社区比以往任何时候都更加重要，而且我一如既往地很高兴能成为其中的一份子。

导航至

试用 InfluxDB Cloud

停止盲目飞行

Apache DataFusion Meetup：芝加哥 2024 年 12 月回顾

作者：Andrew Lamb / 开发者
2025 年 1 月 6 日

导航至

准备好开始了吗？

InfluxDB 3 Core 和企业版 GA：面向开发者的下一代时间序列平台问世

数据湖和仓库

InfluxDB for Industrial IoT：
现场演示

时间序列数据库详解

网络监控

时间序列数据分析：2025 年的定义和最佳技术

产品与解决方案

开发者

公司

导航至

试用 InfluxDB Cloud

停止盲目飞行

获取更新

​Apache DataFusion Meetup：芝加哥 2024 年 12 月回顾

作者：Andrew Lamb / 开发者 2025 年 1 月 6 日

导航至

准备好开始了吗？

InfluxDB 3 Core 和企业版 GA：面向开发者的下一代时间序列平台问世

数据湖和仓库

InfluxDB for Industrial IoT：现场演示

时间序列数据库详解

网络监控

时间序列数据分析：2025 年的定义和最佳技术

产品与解决方案

开发者

公司

注册 InfluxData 新闻邮件

关注我们

Apache DataFusion Meetup：芝加哥 2024 年 12 月回顾

作者：Andrew Lamb / 开发者
2025 年 1 月 6 日

InfluxDB for Industrial IoT：
现场演示