InfluxDB 如何帮助零售组织为网络星期五周末做好准备

导航至

从感恩节到网络星期一的五天时间被称为“网络星期五周末”(也称为 Cyber 5)。福布斯估计,2018 年感恩节当天人们消费了 37 亿美元。他们估计,整个周末有超过 1.65 亿人购物。这比去年同期增长了 16.5%。在黑色星期五,人们在线消费了 62 亿美元,同比增长 23.6%。在线零售已成为一个竞争非常激烈的领域,组织必须确保尽一切可能获得客户并让他们回头。实时检测和修复问题会影响公司的盈亏底线。

网站性能和页面加载时间的重要性

据 BBC 报道,许多客户不愿意等待三秒钟页面加载,就会变得不耐烦并考虑转向其他零售商。根据 2019 年的一项研究,如果加载时间超过三秒,53% 的访问者会离开。页面加载时间相差半秒可能会使在线零售商的销售额相差 10%。

由于连接速度,零售网站近年来变得越来越慢。谷歌、Facebook 和 Twitter 等第三方连接器可能会因聊天和其他功能而减慢网站速度。某些地区的延迟情况更糟。澳大利亚的平均加载时间可能会更长,如果网站源自美国。

电子商务网站依赖快速加载时间来维持或提高其搜索引擎排名、网站流量和投资回报率。缩短网站加载时间可以增加潜在客户通过搜索引擎找到他们的可能性。虽然谷歌没有分享他们如何创建搜索排名,但如果网站加载速度缓慢,他们已经警告网站所有者。正如谷歌工程师 Phillip Walton 所说,“在网络上,良好的第一印象可能会决定某人成为忠实用户还是离开并且永不回头”。

零售组织转向 InfluxDB

世界各地的零售公司都依赖 InfluxDB 为他们提供更好的实时分析和数据洞察。英国最大的零售商之一使用 InfluxDB 监控其商店中 700 多个终端。该零售商正在使用时间戳数据来改善其在线客户体验,并实现更好的事件警报和管理。通过使用 InfluxDB,这家欧洲零售商不断改进其内部运营。世界上最大的食品和饮料组织之一使用 InfluxDB 监控其豪华咖啡和浓缩咖啡品牌的电子商务网站。该公司使用 InfluxDB 收集网站流量数据,以监控和改善其网站性能。

Wayfair 是“最大的家居装饰和家具在线零售商之一”。他们的总部位于马萨诸塞州波士顿,在北美和欧洲开展业务,员工超过 10,900 人。他们有数百个应用程序从其数据中心向 InfluxDB 发送指标。InfluxData 的平台已成为 Wayfair 网络星期五周末监控和警报系统的关键组件。

Wayfair 的 Cyber 5

Wayfair 的品牌包括 Wayfair、Joss & Main、ALLMODERN、Birch Lane 和 Perigold。他们精选的家居用品、装饰品、家居装修和家庭用品超过 1400 万件商品。2018 年 9 月,他们报告称,在过去的十二个月中,他们创造了 62 亿美元的净收入。

据 Nirag Shah 称,Wayfair 的首席执行官兼联合创始人,“我们看到假日购物的总体节奏正在发生变化,在线购物成为整个假日周末的明显领导者,推动了超常增长。随着从实体店到在线购物的更广泛转变继续获得动力,Wayfair 正在家居用品类别中占据领先的市场份额。”

2018 年,Wayfair 估计,他们每 15 秒就有客户购买水龙头或梳妆台,每 10 秒购买圣诞树,每 9 秒购买沙发,每 6 秒购买床垫,每 5 秒购买吧台凳,每 1.5 秒购买地毯。大多数客户购买的是配件、亚麻布和家具等较小的商品。2018 年,运送的最重的物品是 3000 磅重的木制棚屋。Wayfair 报告称,“感恩节至网络星期一的五天高峰购物期内,直接零售总销售额(定义为订单摄入量美元)同比增长 58%”。五天中的最高峰是网络星期一。

随着越来越多的零售公司增加其电子商务业务,客户的购买模式正在发生变化。通过假日促销和闪购,Wayfair 正在看到市场变化。2018 年,Shah 表示:“我们预计在线消费美元将持续转移,并且我们已做好充分准备,在黑色星期五和整个周末捕捉到这种增长”。

Wayfair 的 IT 基础设施

Wayfair 团队拥有八个数据中心。其中三个位于波士顿、西雅图和爱尔兰。此外,他们还有几个使用 Google Cloud 的云数据中心。这为团队提供了完整的冗余。他们使用 DNS 来控制服务名称集。这有助于确定哪些后端集群处于活动状态,哪些处于待机模式。Wayfair 使用多阶段 Kafka 管道从本地数据中心提取指标数据,在本地数据中心,数据被收集到中心位置,以便摄取到 InfluxDB 中,即专门构建的时间序列数据库

在过去的十年中,Wayfair 一直在改进其软件开发和数据中心运营。由于美国感恩节假期周期间业务的极端高峰,Wayfair 知道它需要加强其基础设施以处理更高的数据量。他们还需要更好地分析和了解其数据。他们在波士顿和柏林设有两家 Wayfair 运营中心 (WOC)。在这两个 WOC 之间,他们提供 24x7 全天候覆盖。他们不断根据重要参数分析其 IT 基础设施。

为了确保最佳的客户体验,他们会跟踪客户在整个购买过程中的活动。他们有事件跟踪器、计时器以及来自 2,000 多台运行数百个应用程序的虚拟机上的其他指标。他们的数据供其开发人员、内部警报引擎和其他利益相关者使用。他们与营销团队合作,了解何时发送电子邮件通信。了解何时安排营销活动有助于他们了解何时会出现网站流量高峰。

Wayfair 的数据中心之一的数据管道示例

下图显示了 Wayfair 数据管道中涉及的步骤。

InfluxDB retail - Wayfair IT infrastructure

前四个步骤发生在应用程序所在的本地数据中心。所有这些组件都位于每个数据中心本地

  • 指标负载均衡器(Metric LB):使团队能够在无需等待交付确认的情况下发送指标。Wayfair 需要确保正确收集指标并且不会丢失。
  • Curate:使用 Telegraf 丢弃错误标签或阻止错误指标。
  • 缓冲区:使用 Telegraf 保留指标数据,并尽可能多地写入 Kafka。
  • Ship:使用 Telegraf 将数据发送到 Kafka。

在最后两个步骤中,数据从所有八个数据中心整合到一个 Kafka 集群中,而不是分散在不同的集群中。

Wayfair 的生产后端

下图显示了 Wayfair 主要生产系统的后端

Wayfair - production backend architecture

后端的dataflow如下

  • Mirrormaker 从其本地数据管道(即图 1)中提取数据,并将数据整合到更大的 Kafka 集群中。
  • 数据被摄取到特定于内容类型的集群中。
  • Tremor 是 Wayfair 构建的一个应用程序,用于从 Kafka 中提取数据并将其写入 InfluxDB。Tremor 将在 2020 年与开源社区共享。
  • Wayfair 使用集群来细分其流量数据,例如“Gen”表示通用,“SF”表示店面,“Mon”表示监控。
  • 每个集群都运行 Chronograf
  • 高可用性 (HA) 对于 Wayfair 非常重要,因此他们在每个集群中使用 HA 代理。

Wayfair 使用 InfluxDB 进行真实用户监控 (RUM)

Wayfair 的店面工程团队重视准确的性能监控。他们不断部署代码更改,这直接影响了他们面向客户的网站。每个代码更改都有可能对性能产生积极或消极的影响。了解页面加载时间有助于捕获回归、查找加速系统的机会以及确定改进是否在现实中奏效。

他们的团队对所有 Web 性能指标都感兴趣,包括:服务器端、综合测试和真实用户监控 (RUM)。服务器端指标易于构建,但无法捕获客户端发生的问题。综合用户监控只能根据预定规范提供有关客户端性能的信息。综合测试仅限于特定 URL 和人为测试环境。

RUM 使用 JavaScript 和 API 来记录客户体验到的加载时间。通过跟踪真实客户,Wayfair 能够发现通常对其系统不可见的问题。这一点越来越重要,因为他们的网站变得越来越复杂(由于来自第三方服务器和网络的资源、图像、字体和脚本)。Wayfair 客户的网络条件(如延迟和带宽)可能会导致意外的在线体验。

Wayfair 每天在八个站点、数百种页面类型和数千个设备上收集 5000 万个 RUM 数据点。这些设备包括手机、平板电脑和计算机。在网络星期五周末期间,Wayfair 知道他们需要能够处理 3 倍-5 倍于他们通常流量的最高峰值。InfluxDB 提高了他们数据的可见性,并帮助改善了客户体验。他们的平台是可扩展的,并且能够满足未来的需求。

大约八年前,Wayfair 开始使用 Graphite 作为其时间序列数据库。他们将该工具用于图表和警报。随着时间的推移,他们通过添加更多验证和功能来增强系统。他们添加了按 Web 浏览器细分指标的功能。他们的 RUM 仪表板在查明问题方面变得很有帮助。但是,他们的系统存在一些怪癖,使得数据分析变得困难。正如 Hagan 指出的那样,“由于值的范围很广且存在异常值,RUM 特别难以衡量和可视化”。异常值严重扭曲了他们的数据,他们发现 Graphite 很容易受到这些问题的影响。在 InfluxDB 之前,Wayfair 的数据管道包括使用 UDP 在数据中心之间推送数据。虽然速度很快,但它缺少一些所需组件。

Wayfair 在 2016 年开始评估 InfluxDB,最终切换到 InfluxDB Enterprise 作为其时间序列平台。他们选择了 InfluxData 的本地部署产品,因为他们想要管理自己的虚拟机和高容量集群。他们重视它不像 Graphite 那样容易受到相同问题的影响。InfluxDB 使用真正的中位数计算器;因此,他们的数据不会被扭曲。Wayfair 团队直接与 InfluxData 团队合作,以确保他们最有效地使用专门构建的时间序列数据库。他们发现 InfluxDB 的架构需要一段时间才能设置好,但它更强大、更灵活。使用 InfluxDB 和 Grafana,Wayfair 能够创建自定义仪表板。

改善客户体验对 Wayfair 团队非常重要。了解客户如何以及何时与他们的在线商店互动对其盈亏底线至关重要。他们开始使用一个新的指标进行监控:可交互时间 (TTI)。使用 API,他们能够确定站点何时准备好快速响应客户的请求。他们还在考虑使用 Walton 的 首次输入延迟测量,这是衡量站点交互性的指标。

Wayfair 已成为 InfluxData 的战略客户。作为 InfluxDB 社区的活跃成员,他们已经贡献了 Telegraf 插件。要了解有关 Wayfair 如何使用 InfluxData 平台的更多信息,请查看完整案例

如果您有兴趣分享您的 InfluxDB 故事,请点击此处