使用 InfluxDB 进行基础设施监控 | 现场演示
开放数据架构
开放数据架构利用现代技术来改进组织大规模处理数据的方式
数据架构已经发生了显著的演变。传统的系统在其时代虽然有效,但现在在可扩展性和互操作性方面带来了挑战。从这些传统系统到更开放和灵活的架构的演变标志着一个关键的转变,以满足对敏捷和可扩展的数据管理解决方案日益增长的需求。
从传统数据库到开放数据架构的转变,与从单体应用到微服务的过渡类似。 这种演变的特点是从昂贵的本地硬件和专有格式转向更灵活的云端解决方案。 2006 年 Hadoop 的推出以及随后 AWS 和 Snowflake 等云数据供应商的崛起,彻底改变了数据存储,实现了计算和存储组件的分离。
开放数据架构概述
开放数据架构背后的核心思想是,您应该围绕开放的存储和通信标准来设计您的数据系统。 这样做的好处首先是可以防止供应商锁定,这在处理大量数据时可能成为一个主要问题。 使用开放标准的第二个好处是,它可以使您组织内的任何人都可以更轻松地使用他们喜欢的工具来集成和处理您的数据。 这使您的组织能够从您的数据中获得更多价值。
开放数据架构的关键概念
- 文件格式、计算引擎、分离存储和计算
以下是开放数据架构的一些最重要的概念
- 开放文件格式 - 开放数据架构要求使用开放文件格式来存储您的数据,例如 Parquet 或 Iceberg。 通常,这些文件将使用对象存储进行存储,以实现可扩展性和持久性。
- 开放通信协议 - 您的数据应该可以通过 ODBC 或 JDBC 等标准,或其他协议(如 HTTP 或 Arrow Flight)访问。 这些协议具有广泛的支持,并且大多数工具都提供互操作性,因此您不必重新发明轮子或担心您的数据难以访问。
- 支持多种查询引擎 - 我们无法预测未来几年会出现哪些分析工具,或者我们需要能够支持哪些工作负载。 开放数据架构通过允许您使用多种不同的查询引擎轻松访问您的数据来解决这个问题。 这可以通过让他们直接访问底层数据或使用前面介绍的通信协议来完成。 开放数据架构能够扩展,以便可以同时使用这些不同的查询引擎,而不会导致性能下降。
- 独立的计算和存储 - 独立扩展计算和存储的能力对于实现高查询性能同时保持成本可承受性至关重要。 这是作为上面涵盖的所有概念的副产品实现的。 对象存储使大规模存储数据变得容易且经济实惠,而使用开放协议允许使用不同的工具来查询您的数据。
开放数据架构的优势
与传统的大数据系统相比,利用开放数据架构具有许多优势。 以下是一些主要优势
- 可扩展性和灵活性 - 相对于传统架构的最大优势在于,您可以轻松且经济实惠地扩展数据存储。 您还可以在如何处理和分析数据方面获得灵活性。
- 数据治理和安全性 - 开放数据架构使数据治理和安全最佳实践易于实施。
- 节省成本 - 通过使用廉价的对象存储并将其与最适合您工作负载的查询引擎相结合,您可以获得出色的性能,而无需付出传统数据仓库的价格。 不必维护多个不同的解决方案也将在长期内节省成本。
- 通过数据共享改进协作和创新 - 将数据集中在一个地方而不是多个数据孤岛中,可以实现更好的协作和更多的创新,这归功于可见性和减少的实验障碍。
- 改进新技术的采用 - 由于您的所有数据都可以通过开放标准访问,因此尝试新技术的挑战性较小。 这使您的组织在采用新工具时能够更快地行动并保持领先地位。