如何通过可观察性解决Playtech的指标过度收集问题

导航到

根据福布斯报道,每天创造的数据量达2.5万亿字节。近年来,由于物联网(IoT)和传感器的增长,数据量呈指数级增长。仅在过去两年内收集的数据量就占了大多数。例如,美国每分钟产生的互联网数据超过2.5百万吉字节,全球超过一半的网络流量来自移动设备

Gartner 将暗数据定义为“组织在日常业务活动中收集、处理和存储的数据,但通常未用于其他目的。”虽然公司有时必须出于合规原因存储数据,但也会保留从未发生分析的数据。根据Bob Picciano的说法,IBM的高级副总裁兼分析部负责人,90%的传感器生成的数据从未被使用,60%的数据在毫秒内就失去了价值。CIO.com 指出,非结构化数据占组织暗数据的约90%,但企业意识到,他们的非结构化数据有潜力改进他们的运营。

公司渴望收集更多关于他们的网站、产品、运营和客户的信息。但对于公司来说,最好的做法是只收集他们将要使用的数据,并确保他们有效地使用这些数据。

Playtech使用InfluxDB提高可观察性

Playtech是全球最大的在线游戏软件供应商,在伦敦证券交易所上市。自1999年以来,它一直在通过持续的创新发展来创造行业最佳的产品和内容。Playtech成立于爱沙尼亚塔林,拥有5000名员工,遍布17个国家。多年来,它推出了新产品,收购了组织,进入了新市场,并建立了合作伙伴关系,以保持其在在线游戏行业中的领导者地位。

InfluxDB是Playtech运营的重要组成部分,因为它使他们的团队能够对其所有系统进行可观察性。Playtech拥有超过50个多品牌网站,遍布全球。Playtech使用InfluxDB进行生产系统级监控和组织监控。除了监控典型的后端系统,如网络和CPU使用情况外,它还跟踪客户体验。通过映射所有产品、客户、网站和品牌,他们能够将某些问题与开发它的工程团队联系起来。

从数据杂乱到数据清晰

在2019年伦敦的InfluxDays大会上,Playtech的技术架构师和InfluxAce成员Aleksandr Tavgen指出,与其试图一次性解决所有问题,不如尝试先解决一个小型关键问题。他建议从添加新的度量开始,尝试解决一个关键部分。通过逐步改变,将更容易让每个人理解数据。Tavgen说:“如果你有九十亿个度量,没有人会去看它们。”

虽然收集正确数据很重要,但数据的呈现方式同样重要。正如Tavgen所指出的,如果一个仪表板展示了公司所有的度量,那么很难理解这个仪表板——它看起来像“数据意大利面”。数据过载且混乱的仪表板实际上会使生活变得更糟。

metrics overcollection central metrics store

如上图仪表板所示,一个图上显示的度量数过少,不太有帮助。当组织知道如何有效地使用它们时,仪表板和可视化非常有用。Tavgen指出,人类大脑容易识别模式。“对我们来说,”Tavgen说,“快速查看仪表板比进行复杂的查询更容易。”

查询需要很长时间,仪表板应该能够为任何人提供数据的快速快照。在他在InfluxDays London 2019的演讲中,Tavgen强调,并非所有度量或日志都是必需的。有时,可以通过数据子集来解决公司的问题,而不是处理数百万个度量事件。

Playtech发现,由于各种原因,处理数百万个度量非常困难:任何团队都无法同时理解数百万个度量,相关的运营成本过高。因此,其团队确定了与业务最相关的关键度量。Playtech对大量事件不感兴趣;如果所有事情都按照他们的“正常行为”参数工作,他们不希望处理所有事情。此外,并非所有异常读数都值得担忧。可能存在假阴性或假阳性,部分原因在于异常值。如果确实存在问题,Playtech希望能够深入度量事件数据。

Playtech在全球拥有76个数据中心,并部署了InfluxDB的本地实例。

  • 代理每分钟收集关键度量。
  • 数据被收集并存储在InfluxDB中,作为真理的中心单一版本。
  • 度量有助于其全球运营的KPI。
  • 他们使用机器学习来预测问题何时出现。
  • 由于运营是分布式的,他们处理不可预测的网络延迟。

如下面的截图所示,多个简单的仪表板比一个充满“数据意大利面”的仪表板更易于使用和有效。

simple dashboard central metrics store

Playtech并不总是需要关联或获取所有数据。Tavgen表示,他们只需要能够按需访问事件数据。例如,如果他们在组织层面部署更改,一旦出现事件,他们可以查询数据。对于Playtech来说,如果这意味着更好的性能,丢失一些数据点是可以接受的。虽然保留所有数据点以防万一很有吸引力,但随时间推移,指标将增长如此之快,以至于任何人都难以理解所有指标。

Tavgen还指出,其他公司也面临着这些问题。例如,Uber收集了约九十亿个指标,分布在一千多个数据库中。Tavgen说:“如果你有九十亿个指标——没有人会看那个。”如果Playtech要在仪表板上显示所有指标,看起来就像“数据意大利面”。大量指标可能导致仪表板无法使用。

使用InfluxDB作为中央指标存储

Playtech选择了InfluxData的时间序列数据库平台,原因有很多。InfluxDB为公司的指标、事件和跟踪提供了集中存储。公司的工程师可以钻入历史数据,为未来做好准备。他们依靠Kafka确保事件的顺序不变。他们利用Flux来合并来自不同来源的数据。他们能够测试他们的理论。

Playtech是利用组织最重要的数据的绝佳例子。与其处理可能导致仪表板看起来像“数据意大利面”的大量数据,它更希望确保其仪表板显示的是重要的数据。

想了解更多关于Playtech如何使用InfluxData的信息,请查看完整故事。如果您想分享您的InfluxDB故事,请点击这里