走向数据科学 | 使用InfluxDB和Structured Streaming实时处理时间序列数据
作者:NewsFeed / 公司
2018年12月21日
导航至
出版物:走向数据科学 标题:使用InfluxDB和Structured Streaming实时处理时间序列数据 作者:Vibhor Nigam
摘要:在这篇由走向数据科学发布的文章中,Vibhor Nigam展示了如何使用开源InfluxDB与Spark-structured streaming实时处理、存储和可视化数据。这里提供了设置InfluxDB单个节点实例的详细说明,以及如何扩展Spark的ForeachWriter以写入InfluxDB的说明。作者还讨论了开发人员在与InfluxDB数据库一起工作时需要注意的事项。在结论中,他写道:“我发现InfluxDB在数据存储方面非常高效且易于使用。InfluxDB的压缩算法非常强大,可以将数据压缩到原来的一半。在我自己的数据中,我看到了压缩将大约67GB的数据减少到35GB。”