Playtech 如何通过可观测性解决指标过度收集问题

导航至

根据 福布斯 报道,每天创建 2.5 百万兆字节的数据。近年来,由于物联网 (IoT) 和传感器的发展,数据量呈指数级增长。过去两年收集的数据量占总数据量的大部分。例如,美国每分钟产生 超过 250 万千兆字节的互联网数据,全球超过一半的在线流量来自 移动设备

Gartner 将暗数据定义为“组织在常规业务活动中收集、处理和存储,但通常未能用于其他目的的数据”。虽然公司有时必须出于合规原因存储数据,但也会为了永远不会发生的分析而保留数据。 Bob Picciano,IBM 分析高级副总裁称,传感器生成的 90% 的数据从未被使用,60% 的数据在几毫秒内失去价值。CIO.com 指出,非结构化数据约占组织中暗数据的 90%,但企业意识到他们的非结构化数据有潜力改善运营。

公司热衷于收集更多关于其网站、产品、运营和客户的信息。但对公司最有利的是只收集他们将使用的数据,并确保他们有效地使用这些数据。

Playtech 使用 InfluxDB 提高可观测性

Playtech 是全球最大的在线游戏软件供应商,并在伦敦证券交易所上市。自 1999 年以来,它一直致力于通过持续的创新开发来创造业内最佳的产品和内容。Playtech 成立于爱沙尼亚的塔尔图,在 17 个国家拥有 5,000 名员工。多年来,它推出了新产品,收购了组织,进入了新市场并建立了合作伙伴关系,以保持其作为在线游戏行业领导者的地位。

InfluxDB 是 Playtech 运营的重要组成部分,因为它使他们的团队能够观察所有系统。Playtech 拥有 50 多个多品牌网站,分布在全球各地。Playtech 使用 InfluxDB 进行生产系统级监控和组织监控。除了监控典型的后端系统(如网络和 CPU 使用率)外,它还跟踪客户体验。通过映射其所有产品、客户、站点和品牌,他们能够将某些问题与开发它的工程团队联系起来。

从数据意大利面到数据清晰

InfluxDays London 2019 上,Playtech 的技术架构师和 InfluxAce Aleksandr Tavgen 指出,最好从尝试解决一个小的关键问题开始,而不是试图一次解决所有问题。他说,首先尝试通过添加新的指标来解决一个关键部分。通过进行增量更改,每个人都更容易理解数据。“如果你有 90 亿个指标,没人会看它们,”Tavgen 说。

虽然收集正确的数据很重要,但数据的呈现方式同样重要。正如 Tavgen 指出的那样,如果仪表板显示公司的所有指标,则很难理解仪表板——它看起来像“数据意大利面”。充满数据的令人困惑的仪表板实际上会使生活变得更糟。

metrics overcollection central metrics store

如上面的仪表板所示,一个图表上显示的指标数量没有太大帮助。当组织知道如何有效地使用仪表板和可视化时,它们非常有用。Tavgen 指出,人脑很容易识别模式。“对我们来说,”Tavgen 说,“快速查看仪表板比进行复杂的查询更容易。”

查询需要很长时间,仪表板应该能够为任何人提供数据的快速快照。在他的 InfluxDays London 2019 演讲 中,Tavgen 指出并非所有指标或日志都是必需的。有时可以使用数据子集来解决公司的问题,而不是处理数百万个指标和事件。

Playtech 发现,由于多种原因,处理数百万个指标非常困难:任何团队都很难一次理解数百万个指标,并且相关的运营成本太高。因此,其团队已确定哪些指标对业务最关键。Playtech 对大量事件不感兴趣;如果一切都以其“正常行为”参数运行,他们就不想处理一切。此外,并非所有异常读数都值得关注。可能存在假阴性和假阳性,部分原因是异常值。如果存在合法问题,Playtech 希望能够深入研究指标和事件数据。

Playtech 在全球拥有 76 个数据中心,其中包含 InfluxDB 的本地实例

  • 代理每分钟收集重要的指标。
  • 数据被收集并存储在 InfluxDB 中,作为唯一的真实版本。
  • 指标有助于其全球运营的 KPI。
  • 他们使用机器学习来帮助预测何时出现问题。
  • 由于运营分布在全球各地,他们处理不可预测的网络延迟。

如下图所示,拥有多个简单的仪表板比一个充满“数据意大利面”的仪表板更实用、更有效。

simple dashboard central metrics store

Playtech 并不总是需要关联或获取其所有数据。Tavgen 表示,他们只需要能够按需访问其事件数据。例如,如果他们在组织级别部署更改,他们可以在发生事件时查询数据。对于 Playtech 来说,如果这意味着更好的性能,那么丢失几个数据点是可以接受的。虽然保留所有数据点以防万一很诱人,但随着时间的推移,指标会增长得如此之快,以至于任何人都很难理解所有指标。

Tavgen 还指出,其他公司也面临着这些问题。例如,Uber 收集了大约 90 亿个指标,分布在 1000 多个数据库中。Tavgen 说,“如果你有 90 亿个指标——没人会看它们。”如果 Playtech 将其所有指标都显示在仪表板上,它看起来会像“数据意大利面”。大量的指标可能会导致仪表板无法使用。

使用 InfluxDB 作为中央指标存储

Playtech 选择 InfluxData 的时间序列数据库平台有多种原因。InfluxDB 为该公司提供了 指标、事件和跟踪的集中存储。公司的工程师能够深入研究历史数据,以便更好地为未来做好准备。他们依靠 Kafka 来确保事件的顺序保持不变。他们正在使用 Flux 来组合来自不同来源的数据。他们能够测试他们的理论。

Playtech 是一个很好的例子,说明了如何利用对组织最重要的数据。与其处理过多的数据(这可能会导致仪表板看起来像“数据意大利面”),不如确保其仪表板显示重要的数据。

要了解更多关于 Playtech 如何使用 InfluxData 的信息,请查看 完整案例。如果您有兴趣分享您的 InfluxDB 故事,请点击 此处