Apache DataFusion Meetup:芝加哥 2024 年 12 月回顾
作者:Andrew Lamb / 开发者
2025 年 1 月 6 日
导航至
上周,我参加了在伊利诺伊州芝加哥举行的 Apache DataFusion Meetup 并发表了演讲。受到 Sami Tandogdu’s (Synnada) 精彩的 DataFusion 贝尔格莱德 meetup 回顾 的启发,我想我也应该尝试一下。
首先,非常感谢 1871、Pydantic 和(当然)InfluxData 赞助本次活动;感谢 Adrian 完成了大部分组织工作;感谢 Xiangpeng 和 Adrian 提供的部分照片。 大约 25 位 DataFusion 爱好者参加了本次聚会,听取了项目贡献者的演讲,并讨论了未来的想法。这次聚会感觉有些独特,因为几乎所有与会者都在他们的产品或项目中使用 DataFusion。这引发了一些精彩的讨论,并让人真切地感受到 DataFusion 的采用率正在提高。以下是四场专题讲座的摘要
“使用 DataFusion 构建实时数据湖”
Adrian Garcia Badaracco - Pydantic 创始工程师 第一个演讲者是 Pydantic 的创始工程师 Adrian。他的团队正在为 pydantic LogFire(一个可观测性平台)构建数据库。Adrian 概述了 Pydantic 如何使用 DataFusion 构建近乎实时的可观测性数据数据湖,并详细介绍了他们的索引和元数据存储。视频 / 幻灯片
“在机器人技术中使用 DataFusion 进行实践数据科学”
Tim Saucer - May Mobility 仿真与基础设施总监 接下来是 Tim Saucer,他是 DataFusion 的贡献者和 提交者,他专注于 Python 绑定。Tim 谈到了机器人技术中的数据科学,以及如何使用 DataFusion 来解决该领域特有的一些挑战。视频 / 幻灯片
“DataFusion 的实用分解缓存”
Xiangpeng Hao (@XiangpengHao) - UW Madison 博士生 下一位演讲者是 Xiangpeng Hao,他是威斯康星大学麦迪逊分校的四年级博士生,研究和构建数据库和存储系统。他谈到了他构建 SplitSQL 的工作,SplitSQL 是一个用于现代数据分析的分解缓存,也是基于 DataFusion 构建的。他曾是 InfluxData 的实习生,并在该职位上为 Apache DataFusion 中的 StringView 集成 和 Parquet 元数据做出了重要贡献。视频 / 幻灯片
“使用 FDAP 堆栈构建 InfluxDB 3.0”
Andrew Lamb (@alamb) - InfluxData DataFusion 首席工程师、PMC 主席 最后,轮到我谈谈我们为什么以及如何使用 FDAP 堆栈构建 InfluxDB 3.0 的理由,重点是 DataFusion 方面。很抱歉照片有点傻,而且我忘记打开麦克风进行录音。视频(没有声音 🤦 )/ 幻灯片
除了演讲者之外,很高兴见到 Alex Wilcoxson、Michael Maletich 和 Relativity Software 的其他成员,他们正在使用 DataFusion 构建文档发现平台,以及 DataFusion-Python 的名人 Michael Ward。出席的还有 Camuel Gilyadov 和 Sergei Turukin(来自 Embucket),他们正在开发一个新的 DataFusion 驱动的项目,以及 Influxer 同事 Devan Benz,他正在研究数据库内部结构。午餐后,我们进行了一些关于项目未来、构建二级索引、性能和 DataFusion-Python 路线图等主题的非正式对话。
虽然与其他人会面有些累人,但我认为在项目发展的这个阶段,这非常重要。随着 DataFusion 的应用逐渐普及,建立一个能够长期维持该项目的社区比以往任何时候都更加重要,而且我一如既往地很高兴能成为其中的一份子。