InfluxDB现在是InfluxData,时间序列数据平台

导航到

今天我们宣布,InfluxDB公司现在是InfluxData。这是我们长期愿景的开始:创建一个平台,用于开发依赖于时间序列数据的App、服务和物联网架构。对我们来说,时间序列数据的重要性不仅因为它可以追踪时间变化的事物,而且因为追踪这些变化正是形成历史趋势、智能、洞察力和预测的依据。我们相信,开发者需要这样一个平台,使他们能够快速构建基于所有这些数据的新颖和创新的应用程序。在这篇博客中,我们将阐述我们认为时间序列数据为何重要;我们正在构建平台的TICK堆栈(我们构建平台的基础);以及我们对InfluxDB数据库的持续开发。

为什么是时间序列数据,为什么是现在?

“大数据”的第一波浪潮代表了用户生成活动和内容。但今天,世界上的传感器数量已经超过了人类。传感器可以是基于软件的,如跟踪应用程序、服务器、路由器或其他IT设备发生情况的传感器,也可以是物理传感器,在手机、无人机、工厂设备、汽车、家用电器和无数其他设备中进行测量。

所有这些传感器都在持续不断地输出数据;通常每秒多次,并且都是时间序列数据。除了物理传感器外,由Docker、OpenStack和其他容器/IaaS技术驱动的临时数据的数量级增加才刚刚开始。

事件驱动或传感器数据都可以理解为许多不同的时间序列。通过跟踪时间变化,我们可以查看历史趋势,深入了解正在发生的事情,实时检测异常,提供真正的操作可见性,并对未来进行预测。许多这些序列都是临时的,为现有的技术堆栈创造了特殊的挑战。

传感器革命还处于起步阶段,它产生的数据洪流将使“大数据”看起来就像池塘中的涟漪。我们正在为那个未来做准备。

时间序列数据的四个问题

我们构建平台的动机源于我们对处理时间序列数据的四个关键问题的认识:收集、存储、可视化和处理。许多开发者向我们寻求解决这些问题的方案。到目前为止,我们主要关注问题的存储部分。我们在这方面还有很多工作要做,我稍后会谈到,但首先我要谈谈这四个与时间序列相关的问题和TICK堆栈的各个部分。

收集是所有一切的起点。您如何将应用程序、服务器、传感器、路由器、工厂设备、家用电器或汽车中的数据收集到可以存储、监控或用于分析的地方?

对许多人来说,存储是显而易见的部分——您在哪里存储您收集的时间序列数据?在处理时间序列数据时,存储层需要解决一些独特的问题。您可能拥有数十亿或数万亿个数据点,这些数据点根据任意元数据索引。通常,基于时间的数据及其相关的元数据是临时的,这意味着您删除的数据与您写入的数据一样多——这是数据库中特别难以解决的问题。

可视化主要关于汇总数据,帮助人们深入了解他们正在测量的任何因素。同时,处理主要关于转换、监控和从您的数据中通过算法获得洞察力,这可能包括ETL、警报和异常检测等。

我们发现,这四个问题几乎出现在开发人员处理时间序列数据的每一个用例中,包括DevOps、实时分析、传感器数据、物联网、自动化、金融、商业智能等多个领域。我们的目标是构建一个平台,帮助开发者在所有这些领域构建智能应用。这就是我们引入TICK堆栈的原因。

介绍TICK堆栈

在我们深入探讨TICK堆栈的起源和具体组件之前,我应该回答一下大家可能都有的一个问题:为什么在已经有现成且开源的工具时,还要构建新的用于收集、可视化和处理的数据工具?我们的努力不是应该只集中在构建InfluxDB上吗?

构建其他工具最重要的原因是InfluxDB中的数据模型与现有工具完全不符。我们从数据库层面重新思考了时间序列问题,这意味着我们需要新的工具与InfluxDB无缝集成并利用其模式。

TICK堆栈就是这样一套工具。它代表的是Telegraf、InfluxDB、Chronograf和Kapacitor。我将在稍后介绍每个这些工具并链接到更详细的博客文章,但首先我想谈谈TICK名称的起源。

tick stack grid

TICK 是金融中一个术语的缩写:“在报价中价格的增加。”

虽然InfluxData的总部位于旧金山,但InfluxDB起源于纽约市,这是一个金融气息浓厚的地方。事实上,我第一次构建“时间序列数据库”是为一家位于曼哈顿的金融科技公司。除了与纽约市和金融的明显联系外,我们喜欢“tick”的另一个更微妙的原因:一个tick只存在于时间变化框架中。

对我们来说,这就是时间序列。不仅仅是事物随时间变化,而且能够跟踪随时间的变化,是提供对象历史过程中智能和洞察力的关键。

我们知道我们必须构建四个不同的项目来应对我们收集、存储、可视化和处理的关键领域。以tick作为起点,我们已经有InfluxDB,所以我们决定将其他工具的名称组合成一个缩写:TICK

Telegraf是一个开源工具,用于从服务器、知名服务、第三方API以及未来的路由器、ARM硬件上的传感器等收集数据。了解更多信息,请访问Telegraf页面

InfluxDB是我们开源的分布式时间序列数据库,也是这一切的起点。我将在本帖的下一部分更深入地讨论我们关于InfluxDB的未来计划。

Chronograf是我们免费使用的可视化工具,用于构建仪表板和在InfluxDB中进行数据即席探索。我们还在努力开源Chronograf的可视化组件,以便开发者在构建自定义应用时能够在几分钟内从无到有地存储和可视化时间序列数据。了解更多信息,请访问Chronograf页面

最后,Kapacitor是我们开源的时间序列数据处理工具。它适用于流式数据或批量数据,非常适合进行ETL、监控、警报以及实时统计和排行榜。了解更多信息,请访问Kapacitor页面。

TICK-Stack 通过TICK堆栈,我们希望为开发者提供构建DevOps、分析、传感器、物联网以及时间序列所有领域应用程序所需的全部工具。我们的一个主要目标是优化开发者的幸福感,我们相信这可以通过开发者快速构建他们梦想中的应用程序来实现。

InfluxDB开发和近期目标

尽管这篇帖子是关于我们更名到InfluxData,但许多读者可能对InfluxDB的进展和我们的近期目标感兴趣。InfluxDB的开发在公司中是首要任务。

目前,InfluxDB有数千名用户(包括较老的0.8.8版本和较新的0.9.x版本)。然而,有一些用户在等待我们关于性能和集群工作的进展。对于已经运行的用户,我们收到了对我们所做工作的积极反馈。

这是我们在公开开发中做出的权衡——一些用户会立即获得价值,而其他用户可能会对我们的进展或早期破坏性更改感到失望。公开开发并愿意进行重大更改的优势是我们避免了局部最优。也就是说,InfluxDB的后期版本将更加强大和灵活,因为我们愿意在早期进行重大更改。我们已经有4个版本的API稳定性,并致力于仅添加更改的后续版本。

我们相信迭代和持续改进是构建优秀产品的关键。我们将努力追求卓越,并觉得我们对用户负责。

在接下来的几个月里,我们将对InfluxDB的存储引擎、集群和整体稳定性进行重大改进。InfluxDB 0.9.6版本只是开始,您现在可以使用专门针对时间序列优化的TSM存储引擎开始测试。有关更多信息,请参阅今天的InfluxDB 0.9.6版本发布公告

不仅仅局限于InfluxDB

现在我们已经更名为InfluxData,我们不仅仅是InfluxDB,时间序列数据库公司。我们是一个综合平台,用于时间序列数据,使开发者能够构建酷炫的东西。我们看到了许多用户在存储的同时,在收集、可视化和处理方面遇到困难。InfluxData是我们帮助开发者和用户在所有四个方面解决问题的尝试。

从更高的角度来看,我们对我们所做的工作感到兴奋,因为我们正在帮助人们构建东西。正如一位顾问最近告诉我的,“你为那些构建酷炫东西的人构建酷炫的东西而感到兴奋。”我们确实是。

接下来是什么?

通过浏览我们的入门指南或直接前往下载页面,您可以试用一个或所有组件。